Analiza de regresie multiplă cu Excel

  • Imparte Asta
Hugh West

Regresie simplă analiza este folosită în mod obișnuit pentru a estima relația dintre două variabile, de exemplu, relația dintre randamentul culturilor și precipitații sau relația dintre gustul pâinii și temperatura cuptorului. Cu toate acestea, de cele mai multe ori trebuie să investigăm relația dintre o variabilă dependentă și două sau mai multe variabile independente. De exemplu, un agent imobiliar poate dori să știedacă și în ce mod măsuri precum dimensiunea casei, numărul de dormitoare și venitul mediu al cartierului au legătură cu prețul de vânzare al unei case. Acest tip de problemă poate fi rezolvat prin aplicarea analiza de regresie multiplă. Iar acest articol vă va oferi un rezumat al modului de utilizare a analizei de regresie multiplă folosind Excel.

Problema

Să presupunem că am luat 5 vânzători aleși la întâmplare și am colectat informațiile prezentate în tabelul de mai jos. Dacă educația sau motivația are sau nu un impact asupra vânzărilor anuale?

Cel mai înalt an de școală absolvit Motivația măsurată prin Scala de motivație Higgins Vânzări anuale în dolari
12 32 $350,000
14 35 $399,765
15 45 $429,000
16 50 $435,000
18 65 $433,000

Ecuația

În general, analiza regresiei multiple presupune că există o relație liniară între variabila dependentă (y) și variabilele independente (x1, x2, x3 ... xn). Și acest tip de relație liniară poate fi descrisă cu ajutorul următoarei formule:

Y = constantă + β1*x1 + β2*x2+...+ βn*xn

Iată explicațiile pentru constante și coeficienți:

Y Valoarea prezisă a lui Y
Constant Interceptarea Y
β1 Variația lui Y la fiecare modificare de 1 increment în x1
β2 Variația lui Y la fiecare variație de 1 increment în x2
... ...
βn Variația lui Y la fiecare modificare de 1 increment în xn

Constanta și β1, β2... βn pot fi calculate pe baza datelor de eșantionare disponibile. După ce obțineți valorile constantei, β1, β2... βn, le puteți utiliza pentru a face predicțiile.

În ceea ce privește problema noastră, există doar doi factori care ne interesează. Prin urmare, ecuația va fi:

Vânzări anuale = constantă + β1*(cel mai înalt an școlar absolvit) + β2*(Motivația măsurată prin scala de motivație Higgins)

Set Up Model

Vânzările anuale, cel mai înalt an de școală absolvit și Motivația au fost introduse în coloana A, coloana B și coloana C, așa cum se arată în figura 1. Este mai bine să se plaseze întotdeauna variabila dependentă (aici vânzările anuale) înaintea variabilelor independente.

Figura 1

Descărcați Analysis ToolPak

Excel ne oferă funcția de analiză a datelor care poate returna valorile constantelor și coeficienților. Dar înainte de a utiliza această funcție, trebuie să descărcați Analysis ToolPak. Iată cum îl puteți instala.

Faceți clic pe butonul Fișier tab -> Opțiuni și apoi faceți clic pe Suplimente în Opțiuni Excel Faceți clic pe Du-te din partea de jos a paginii Opțiuni Excel pentru a deschide caseta de dialog Suplimente În caseta de dialog. Suplimente caseta de dialog, selectați Analiză TookPak și apoi faceți clic pe Ok .

Acum, dacă faceți clic pe Date fila, veți vedea Analiza datelor apare în Analiză grup (panoul din dreapta).

Figura 2 [faceți clic pe imagine pentru a o vizualiza în întregime]

Analiza de regresie multiplă

Faceți clic pe Analiza datelor în Analiză grupul de pe Date tab. Selectați Regresie În cadrul programului prompted Analiza datelor De asemenea, puteți face și alte analiză statistică cum ar fi testul t, ANOVA și așa mai departe.

Figura 3.1

A Regresie după ce selectați Regresie . completați caseta de dialog așa cum se arată în figura 3.2.

Intervalul de intrare Y conține variabila dependentă și datele, în timp ce intervalul de intrare X conține variabilele independente și datele. Trebuie să vă reamintesc că variabilele independente trebuie să fie în coloane adiacente. Și numărul maxim de variabile independente este de 15.

Deoarece intervalul A1: C1 include etichete variabile și, prin urmare, caseta de selectare Labels (Etichete) ar trebui să fie selectată. De fapt, vă recomand să includeți etichete de fiecare dată când completați Input Y Range (Intervalul Y de intrare) și Input X Range (Intervalul X de intrare). Aceste etichete sunt utile atunci când analizați rapoartele de sinteză returnate de Excel.

Figura 3.2

Prin selectarea casetei de selectare Reziduuri, puteți permite Excel să listeze reziduurile pentru fiecare observație. Uitați-vă la Figura 1, există 5 observații în total și veți obține 5 reziduuri. Reziduul este ceva ce rămâne atunci când scădeți valoarea prezisă din valoarea observată. Reziduul standardizat este reziduul împărțit la deviația standard.

De asemenea, puteți selecta caseta de selectare Residual Plot, care poate permite Excel să returneze diagrame reziduale. Numărul de diagrame reziduale este egal cu numărul de variabile independente. Un grafic rezidual este un grafic care prezintă reziduurile pe axa Y și variabilele independente pe axa x. Punctele dispersate aleatoriu în jurul axei x într-un grafic rezidual implică faptul că regresie liniară De exemplu, figura 3.3 prezintă trei modele tipice de diagrame reziduale. Numai cel din panoul din stânga indică faptul că este o potrivire bună pentru un model liniar. Celelalte două modele sugerează o potrivire mai bună pentru un model neliniar.

Figura 3.3

Excel va returna o diagramă cu linii ajustate dacă selectați caseta de selectare Line Fit Plots. O diagramă cu linii ajustate poate reprezenta relația dintre o variabilă dependentă și o variabilă independentă. Cu alte cuvinte, Excel vă va returna același număr de diagrame cu linii ajustate cu cel al variabilei independente. De exemplu, veți obține 2 diagrame cu linii ajustate pentru problema noastră.

Rezultate

După ce faceți clic pe butonul Ok, Excel va returna un raport de sinteză, așa cum este prezentat mai jos. Celulele evidențiate cu verde și galben reprezintă partea cea mai importantă la care trebuie să acordați atenție.

Figura 3.4

Cu cât este mai mare pătratul R (celula F5), cu atât există o relație mai strânsă între variabilele dependente și variabilele independente. Iar coeficienții (intervalul F17: F19) din cel de-al treilea tabel v-au returnat valorile constantelor și coeficienților. Ecuația ar trebui să fie: Vânzări anuale = 1589,2 + 19928,3*(cel mai înalt an școlar absolvit) + 11,9*(Motivația măsurată prin Scala de motivație Higgins).

Cu toate acestea, pentru a vedea dacă rezultatele sunt fiabile, trebuie să verificați și valorile p evidențiate cu galben. Numai dacă valoarea p din celula J12 este mai mică de 0,05, întreaga ecuație de regresie este fiabilă. Dar trebuie să verificați și valorile p din intervalul I17: I19 pentru a vedea dacă constantele și variabilele independente sunt utile pentru predicția variabilei dependente. Pentru problema noastră, este mai bine pentru noi să eliminămmotivație atunci când se iau în considerare variabilele independente.

Citiți mai mult: Cum se calculează valoarea P în regresia liniară în Excel (3 moduri)

Eliminați motivația din variabilele independente

După ce am eliminat Motivația ca variabilă independentă, am aplicat aceeași abordare și am făcut o analiză de regresie simplă. Puteți vedea că toate valorile sunt acum mai mici de 0,05. Ecuația finală ar trebui să fie:

Vânzări anuale = 1167.8 + 19993.3*(cel mai înalt an școlar absolvit)

Figura 3.5 [faceți clic pe imagine pentru a obține o vizualizare completă].

Notă

Figura 4

Pe lângă instrumentul Add-Ins, puteți utiliza și funcția LINEST pentru a efectua analiza de regresie multiplă. Funcția LINEST este o funcție de matrice care poate returna rezultatul fie într-o singură celulă, fie într-un interval de celule. Mai întâi de toate, selectați intervalul A8:B12 și apoi introduceți formula "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" în prima celulă a acestui interval (A8). După ce apăsați CTRL + SHIFT +ENTER, Excel va returna rezultatele ca fiindde mai jos. Comparând cu figura 3.4, puteți vedea că 19993.3 este coeficientul celui mai înalt an de școală absolvit, în timp ce 1167.8 este constant. Oricum, vă recomand să folosiți instrumentul Add-Ins. Este mult mai ușor.

Citește mai mult...

Analiză inversă de tip "Ce-ar fi dacă" în Excel

Cum se utilizează caractere wildcard în Excel?

Descărcați fișierul de lucru

Descărcați fișierul de lucru de la link-ul de mai jos.

Analiză de regresie multiplă.xlsx

Hugh West este un trainer și analist Excel cu o experiență de peste 10 ani în industrie. Deține o diplomă de licență în contabilitate și finanțe și un master în administrarea afacerilor. Hugh are o pasiune pentru predare și a dezvoltat o abordare unică de predare care este ușor de urmărit și de înțeles. Cunoștințele sale experte despre Excel au ajutat mii de studenți și profesioniști din întreaga lume să-și îmbunătățească abilitățile și să exceleze în cariera lor. Prin blogul său, Hugh își împărtășește cunoștințele lumii, oferind tutoriale gratuite Excel și instruire online pentru a ajuta persoanele și companiile să-și atingă întregul potențial.