Cuprins
Analiza de regresie se regăsește în aproape toate tipurile de software statistic, cum ar fi SPSS , R, și să nu mai vorbim de Excel. Regresia ne poate oferi o imagine de ansamblu asupra relațiilor dintre variabile. Regresia liniară poate fi realizată destul de rapid în Excel, folosind funcția Analiza datelor Acest articol vă va arăta cum puteți interpretați rezultatele regresiei în Excel.
Descărcați caietul de practică
Descărcați acest caiet de practică de mai jos.
Interpretarea rezultatelor regresiei.xlsxCe este regresia?
Analiza de regresie este adesea utilizată în analiza datelor pentru a determina asocierile dintre mai multe variabile. Analiza de regresie vă permite să alegeți ce se întâmplă cu variabila dependentă dacă una dintre variabilele independente se modifică. De asemenea, vă permite să vă dați seama din punct de vedere matematic ce variabile independente au o influență.
Regresie liniară simplă este distinctă de a regresie liniară multiplă în statistică. Folosind o funcție liniară, simplu analize de regresie liniară asocierea dintre variabile și o variabilă independentă. Regresie liniară multiplă este atunci când doi sau mai mulți factori explicativi sunt folosiți pentru a determina variabilele. Utilizarea regresiei neliniare în locul variabilei dependente este descrisă ca o funcție neliniară, deoarece relațiile dintre date nu sunt liniare. Acest articol se va concentra asupra regresie liniară multiplă pentru a demonstra cum puteți interpretați rezultatele regresiei în Excel.
Pași pentru a face regresie în Excel
În scopuri de regresie, vom folosi setul de date de mai jos pentru analiză. Aici variabila independentă va fi Preț coloană și Vândut coloană. independent va fi coloana Cerere coloană.
Pași
- Trebuie să mergem la Date și faceți clic pe butonul Analiza datelor pentru a face regresie .
- Se va deschide o nouă fereastră; selectați intervalul de date al variabilei dependente și al variabilei independente.
- Apoi bifați caseta Etichete caseta și Încredere cutie.
- Apoi, faceți clic pe caseta interval de celule de ieșire pentru a selecta adresa celulei de ieșire
- În continuare, bifați butonul Rezidual pentru a calcula reziduurile.
- După aceea, bifați caseta Rezidual parcele și Cutii Line Fit Plots
- Faceți clic pe OK după asta.
- După ce faceți clic pe BINE, parametrii principali de ieșire ai analizei se vor afla la celulele specificate.
- Apoi, veți obține, de asemenea, unii parametri, cum ar fi Semnificație valoarea etc. în ANOVA ( Analiza varianței ) tabel.
- Aici, df reprezintă gradul de libertate legat de sursa de variație.
- SS reprezintă suma pătratelor. Modelul dvs. va reflecta mai bine datele dacă Rezidual SS este mai mică decât Total SS.
- MS înseamnă pătrat.
- F denotă F -test pentru ipoteza nulă.
- Semnificație F denotă P -valoarea de F .
- Apoi, veți obține, de asemenea, coeficienții variabilei, valoarea semnificației etc. într-un tabel.
- Apoi veți obține un tabel final sub tabelul de coeficienți, care conține valoarea reziduală pentru fiecare intrare.
- În continuare, veți obține Cerere vs Preț grafic de regresie, cu o linie de trend.
- După aceasta, veți obține Cerere vs Vândut grafic de regresie cu o linie de trend.
- Există un alt grafic care arată distribuția reziduurilor fiecărei intrări din Vândut variabilă.
- Există un alt grafic care arată distribuția reziduurilor fiecărei intrări din Preț variabilă.
În continuare, vă vom arăta cum puteți interpreta aceste rezultate de regresie în Excel.
Citește mai mult: Cum să faci regresie logistică în Excel (cu pași rapizi)
Cum se interpretează rezultatele regresiei în Excel
Următorul lucru pe care trebuie să îl faceți după efectuarea analizei de regresie și interpretarea acestora. Rezultatele sunt descrise și elaborate mai jos.
Analiza valorii de regresie a valorii R pătrate multiple
The R-squared numărul indică cât de strâns sunt legate elementele setului de date și cât de bine se potrivește linia de regresie cu datele. Vom folosi analiza de regresie liniară multiplă, în care vom determina impactul a două sau mai multe variabile asupra factorului principal. Aceasta se referă la modul în care variabila dependentă se schimbă odată cu modificarea uneia dintre variabilele independente. Intervalul acestui coeficient este cuprins întreDe la -1 la 1. Aici,
- 1 înseamnă o relație strânsă și pozitivă
- 0 înseamnă că nu există relații între variabile, cu alte cuvinte, punctele de date sunt aleatorii.
- -1 înseamnă o relație inversă sau negativă între variabile.
În rezultatele de ieșire prezentate mai sus, valoarea R multiplă a seturilor de date date date este o.7578( aproximativ ), ceea ce indică existența unor relații puternice între variabile.
R pătrat
R pătrat explică modul în care variază răspunsul variabilelor dependente la variabila independentă. În cazul nostru, valoarea este de 0,574 (aproximativ), ceea ce poate fi interpretat ca o relație rezonabil de bună între variabile.
R-Squared ajustat
Aceasta este doar o versiune alternativă a R pătrat Acest lucru nu face decât să amestece predictor variabile în timp ce se prognozează răspuns Se calculează ca
R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]
Aici, R^2 : The R^2 pe care am obținut-o din setul de date.
n : numărul de observații.
K : numărul de variabile predictive.
Semnificația acestei valori apare atunci când se face analiza de regresie între două predictor variabile. Dacă există mai mult de un predictor variabilă din setul de date, atunci valoarea R pătrat va fi umflată, ceea ce este extrem de nedorit. Valoarea ajustată R pătrat ajustează această inflație și oferă o imagine exactă a variabilelor.
Eroare standard
Un alt parametru de bonitate a ajustării care indică acuratețea analizei de regresie; cu cât valoarea este mai mică, cu atât mai sigură este analiza de regresie.
Eroare standard este o metrică empirică care reprezintă distanța medie la care punctele se abat de la linia de trend. În schimb, R2 reprezintă proporția de variație a variabilei dependente. În acest caz, valoarea lui Eroare standard este de 288,9 ( aproximativ ), ceea ce denotă că punctele noastre de date, în medie, se îndepărtează cu 288,9 de linia de trend.
Observații
Se indică numărul de observații sau de intrări.
Determinarea variabilei semnificative
The Valoarea de semnificație indică fiabilitatea (soliditatea statistică) analizei noastre. Cu alte cuvinte, denotă probabilitatea ca setul nostru de date să fie greșit. Această valoare ar trebui să fie sub 5%. Dar în acest caz, valoarea noastră de semnificație este de 0,00117, ceea ce se traduce prin 0,1%, ceea ce este cu mult sub 5%. Prin urmare, analiza noastră este în regulă. În caz contrar, este posibil să trebuiască să alegem variabile diferite pentru analiza noastră.
Valoare P în analiza de regresie
În strânsă legătură cu o valoare semnificativă, valoarea Valoare P denotă probabilitatea ca valoarea coeficientului să fie greșită. Valoarea P denotă asocierea ipotezei nule cu variabilele.
În cazul în care p-valoare <the Semnificație există suficiente dovezi pentru a respinge ipoteza valorii nule. Aceasta înseamnă că există o corelație diferită de zero între variabile.
Dar dacă p-valoare > Semnificație Dacă nu există nicio corelație între variabile, nu există dovezi suficiente pentru a respinge ipoteza nulă, ceea ce indică faptul că nu ar putea exista nicio corelație între variabile.
În acest caz, se poate aplica Valoare P a variabilei Preț =0.000948 <0.00117 (valoare de semnificație),
Așadar, nu există o ipoteză nulă și există suficiente dovezi pentru a declara o corelație între variabile.
Pe de altă parte, pentru variabila Vândut , (P-valoare) 0.0038515 <0.0011723 (valoare de semnificație)
Așadar, ar putea exista o ipoteză nulă în acest caz și nu există suficiente dovezi pentru a declara o corelație diferită de zero între variabile.
În cele mai multe cazuri, această valoare P determină dacă o variabilă va fi sau nu în setul de date. De exemplu, ar trebui să eliminăm variabila Vândut variabilă pentru a păstra robustețea setului de date.
Ecuația de regresie
Așa cum determinăm analiza de regresie liniară în Excel, linia de tendință ar trebui să fie, de asemenea, liniară. Forma generală este:
Y=mX+C.
Aici, Y este variabila dependentă.
Iar X este variabila independentă aici, ceea ce înseamnă că vom determina efectul modificării variabilei x asupra variabilei Y.
C va fi doar valoarea intersecției axei Y a liniei.
În acest caz, valoarea interceptului C este egală cu 9502.109853
Iar valoarea lui m pentru cele două variabile este -809,265 și 0,424818.
Astfel, avem ecuația finală pentru cele două variabile separate.
Primul este:
Y=-809.265771X+9502.12Iar ecuația pentru cea de-a doua variabilă este:
Y=0.4248X+9502.12Coeficienți
Coeficienții pe care i-am obținut sunt m1=-809.2655 și m2=04248 . și interceptor, C= 9502.12 .
- În primul rând, valoarea de interceptare indică faptul că cererea va fi 9502 atunci când prețul este zero.
- Iar valorile de m Valoarea coeficientului de preț este -809,265, ceea ce indică faptul că o creștere unitară a prețului va reduce cererea cu aproximativ 809 unități.
- Pentru cea de-a doua variabilă, Vândut, valoarea m este 0,424. Acest lucru indică faptul că modificarea pe unitate vândută va avea ca rezultat o creștere a produsului de 0424 de ori pe unitate.
Reziduuri
The Rezidual diferența dintre intrarea originală și cea calculată din linia de regresie este diferența. Reziduuri indică cât de departe este valoarea reală de linie. De exemplu, valoarea calculată în urma analizei de regresie pentru prima intrare este 9497. Iar prima valoare originală este 9500. Prin urmare, valoarea reziduală este de aproximativ 2,109.
Valoarea statisticii T-S
Valoarea T-statică este împărțirea coeficientului la valoarea standard. Cu cât valoarea este mai mare, cu atât mai bună este fiabilitatea indicată de coeficient.
Există o altă semnificație a acestei valori, care este necesară pentru a calculați valoarea P.
Intervalul de încredere de 95%
Aici încrederea variabilei pe care am stabilit-o la început ca fiind 95. Totuși, aceasta se poate schimba.
- Aici, valoarea coeficientului de 95% inferior este calculată ca fiind 8496,84, ceea ce înseamnă că valoarea coeficientului de 95% superior este calculată ca fiind 10507,37,
- Acest lucru înseamnă că, deși coeficientul nostru principal este de aproximativ 9502,1, există o mare probabilitate ca valoarea să fie sub 8496 pentru 95% din cazuri și o probabilitate de 5% să fie peste 10507,37.
Citește mai mult:
Lucruri de reținut
✎ Metoda analizei de regresie evaluează doar relația dintre variabilele examinate. Ea nu stabilește cauzalitatea. De altfel, ia în considerare doar aspectul de corelație. Când un anumit act cauzează ceva, acesta devine cauzalitate. Când modificarea unei variabile creează schimbări, poate fi considerată cauzalitate.
✎ Analiza de regresie este îngreunată puternic de valorile aberante. Toate tipurile de valori aberante trebuie eliminate înainte de efectuarea analizei. Pentru a analiza și interpreta rezultatele analizei de regresie în Excel, trebuie să luați în considerare aceste puncte.
Concluzie
În concluzie, la întrebarea "cum se interpretează rezultatele regresiei în Excel" se răspunde prin analiza elaborată și, ulterior, interpretarea acesteia. Analiza se face prin intermediul aplicației Analiza datelor din aplicația Date tab.
Pentru această problemă, este disponibil pentru descărcare un caiet de lucru în care puteți exersa analiza de regresie și o puteți interpreta.
Nu ezitați să puneți orice întrebare sau feedback prin intermediul secțiunii de comentarii. Orice sugestie de îmbunătățire a Exceldemy comunitate va fi foarte apreciată.