Satura rādītājs
Vienkāršā regresija analīzi parasti izmanto, lai novērtētu sakarību starp diviem mainīgajiem lielumiem, piemēram, sakarību starp ražas un nokrišņu daudzumu vai sakarību starp maizes garšu un krāsns temperatūru. Tomēr biežāk mums ir jāizpēta sakarība starp atkarīgo mainīgo un diviem vai vairākiem neatkarīgajiem mainīgajiem lielumiem. Piemēram, nekustamā īpašuma aģents var vēlēties noskaidrot.vai un kā tādi rādītāji kā mājas lielums, guļamistabu skaits un vidējie ienākumi apkaimē ir saistīti ar cenu, par kādu tiek pārdota māja. Šāda veida problēmu var atrisināt, piemērojot daudzkārtēja regresijas analīze. Un šajā rakstā būs sniegts kopsavilkums par to, kā veikt daudzkārtēju regresijas analīzi, izmantojot Excel.
Problēma
Pieņemsim, ka mēs paņēmām 5 nejauši atlasītus pārdevējus un apkopojām informāciju, kā parādīts tālāk dotajā tabulā. Vai izglītībai vai motivācijai ir ietekme uz gada pārdošanas apjomiem, vai nav?
Visaugstākais pabeigtās skolas gads | Motivācija, ko mēra ar Higinsa motivācijas skalu | Gada pārdošanas apjoms dolāros |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Vienādojums
Kopumā, daudzkārtēja regresijas analīze pieņem, ka starp atkarīgo mainīgo (y) un neatkarīgajiem mainīgajiem (x1, x2, x3 ... xn) pastāv lineāra sakarība. Un šāda veida lineāro sakarību var aprakstīt, izmantojot šādu formulu:
Y = konstante + β1*x1 + β2*x2+...+ βn*xn
Šeit ir konstantu un koeficientu skaidrojumi:
Y | Prognozētā vērtība Y |
Pastāvīgs | Y-intercepcija |
β1 | Y izmaiņas par katru x1 izmaiņu par 1 inkrementu |
β2 | Y izmaiņas par katru x2 izmaiņu par 1 inkrementu |
... | ... |
βn | Y izmaiņas par katru xn izmaiņu par 1 inkrementu |
Konstanti un β1, β2... βn var aprēķināt, pamatojoties uz pieejamajiem izlases datiem. Pēc konstantas, β1, β2... βn vērtību iegūšanas varat tās izmantot, lai veiktu prognozes.
Mūsu problēmai ir tikai divi faktori, kas mūs interesē. Tāpēc vienādojums būs šāds:
Gada apgrozījums = konstanta + β1*(augstākais pabeigtais skolas gads) + β2*(motivācija, ko mēra pēc Higinsa motivācijas skalas)
Izveidot modeli
Gada apgrozījums, augstākais pabeigtais skolas gads un motivācija tika ievadīti A slejā, B slejā un C slejā, kā parādīts 1. attēlā. Labāk vienmēr pirms neatkarīgajiem mainīgajiem ievietot atkarīgo mainīgo (šeit - gada apgrozījums).
1. attēls
Lejupielādēt Analysis ToolPak
Excel mums piedāvā datu analīzes funkciju, kas var atgriezt konstantu un koeficientu vērtības. Taču pirms šīs funkcijas izmantošanas ir nepieciešams lejupielādēt Analysis ToolPak. Lūk, kā to var instalēt.
Noklikšķiniet uz Failu cilne -> Iespējas un pēc tam noklikšķiniet uz Papildinājumi vietnē Excel opcijas dialoglodziņš. Noklikšķiniet uz Go pogu apakšā Excel opcijas dialoglodziņu, lai atvērtu Papildinājumi dialoglodziņā. Papildinājumi dialoglodziņā izvēlieties Analīze TookPak izvēles rūtiņu un pēc tam noklikšķiniet uz Labi .
Tagad, ja noklikšķiniet uz Dati cilnē redzēsiet Datu analīze parādās Analīze grupa (labajā panelī).
2. attēls [noklikšķiniet uz attēla, lai iegūtu pilnu attēlu]
Vairākkārtēja regresijas analīze
Noklikšķiniet uz Datu analīze in the Analīze grupa par Dati cilne. Atlasiet Regresija Uzaicinātajā Datu analīze dialoglodziņu. Varat veikt arī citus statistiskā analīze piemēram, t-tests, ANOVA u. c.
3.1. attēls
A Regresija dialoglodziņš tiks parādīts pēc tam, kad būsiet izvēlējies Regresija . aizpildiet dialoglodziņu, kā parādīts 3.2. attēlā.
Ievades Y diapazonā ir atkarīgais mainīgais un dati, bet ievades X diapazonā ir neatkarīgie mainīgie un dati. Šeit man jāatgādina, ka neatkarīgajiem mainīgajiem jābūt blakus slejās. Un maksimālais neatkarīgo mainīgo skaits ir 15.
Tā kā diapazons A1: C1 ietver mainīgo marķējumus, tāpēc izvēles rūtiņa Labels (Marķējumi) ir jāatzīmē. Patiesībā es iesaku jums iekļaut marķējumus katru reizi, kad aizpildāt Input Y Range (Ievades Y diapazons) un Input X Range (Ievades X diapazons). Šie marķējumi ir noderīgi, pārskatot kopsavilkuma pārskatus, ko izdara Excel.
3.2. attēls
Atlasot izvēles rūtiņu Residuals (Atlikumi), varat ļaut Excel programmā katram novērojumam uzskaitīt atlikumus. Aplūkojiet 1. attēlu, kopā ir 5 novērojumi, un jūs saņemsiet 5 atlikumus. Atlikums ir kaut kas tāds, kas paliek, atņemot prognozēto vērtību no novērotās vērtības. Standartizētais atlikums ir atlikums, kas dalīts ar tā standartnovirzi.
Varat arī atzīmēt izvēles rūtiņu Residual Plot, kas var ļaut programmā Excel atgriezt atlieku diagrammas. Atlieku diagrammu skaits ir vienāds ar neatkarīgo mainīgo skaitu. Atlieku diagramma ir grafiks, kurā uz Y ass ir attēlotas atlieku vērtības, bet uz x ass - neatkarīgie mainīgie. Atlieku diagrammā nejauši izkaisīti punkti ap x asi nozīmē, ka lineārā regresija Piemēram, 3.3. attēlā parādīti trīs tipiski atlikumu diagrammu modeļi. Tikai viens no tiem, kas atrodas kreisajā panelī, norāda, ka tas ir piemērots lineārajam modelim. Pārējie divi modeļi liecina, ka labāk atbilst nelineārajam modelim.
3.3. attēls
Excel atgriezīs piemērotu lineāro diagrammu, ja atzīmēsiet izvēles rūtiņu Line Fit Plots (Pielāgotas līnijas diagramma). Pielāgotā lineārā diagramma var attēlot sakarību starp vienu atkarīgo mainīgo un vienu neatkarīgo mainīgo. Citiem vārdiem sakot, Excel atgriezīs tādu pašu skaitu pielāgoto lineāro diagrammu ar neatkarīgā mainīgā skaitu. Piemēram, mūsu problēmai jūs saņemsiet 2 pielāgotas lineārās diagrammas.
Rezultāti
Pēc pogas Ok nospiešanas Excel atgriezīs kopsavilkuma ziņojumu, kā norādīts turpmāk. Zaļā un dzeltenā krāsā izceltās šūnas ir vissvarīgākā daļa, kurai jāpievērš uzmanība.
3.4. attēls
Jo lielāks R-kvadrāts (šūna F5), jo ciešāka saistība pastāv starp atkarīgajiem mainīgajiem un neatkarīgajiem mainīgajiem. Un koeficienti (diapazons F17: F19) trešajā tabulā jums atgrieza konstantu un koeficientu vērtības. Vienādojumam jābūt šādam: Gada pārdošanas apjoms = 1589,2 + 19928,3*(augstākais pabeigtais skolas gads) + 11,9*(motivācija, ko mēra ar Higinsa motivācijas skalu).
Tomēr, lai pārliecinātos, vai rezultāti ir ticami, ir jāpārbauda arī dzeltenā krāsā izceltās p-vērtības. Tikai tad, ja p-vērtība J12 šūnā ir mazāka par 0,05, viss regresijas vienādojums ir ticams. Taču ir jāpārbauda arī p-vērtības diapazonā I17: I19, lai pārliecinātos, vai konstante un neatkarīgie mainīgie ir noderīgi atkarīgā mainīgā prognozēšanai. Mūsu problēmai ir labāk, ja mēs noraidāmmotivācija, ņemot vērā neatkarīgos mainīgos.
Lasīt vairāk: Kā aprēķināt P vērtību lineārā regresijā programmā Excel (3 veidi)
Noņemt motivāciju no neatkarīgajiem mainīgajiem
Pēc motivācijas kā neatkarīgā mainīgā svītrošanas es izmantoju to pašu pieeju un veicu vienkāršu regresijas analīzi. Varat redzēt, ka tagad visas vērtības ir mazākas par 0,05. Galīgajam vienādojumam jābūt šādam:
Gada apgrozījums = 1167,8 + 19993,3*(augstākais pabeigtais mācību gads)
3.5. attēls [noklikšķiniet uz attēla, lai iegūtu pilnu attēlu]
Piezīme
4. attēls
Papildus Add-Ins rīkam varat izmantot arī LINEST funkciju, lai veiktu daudzkārtēju regresijas analīzi. LINEST funkcija ir masīva funkcija, kas var atgriezt rezultātu vienā šūnā vai šūnu diapazonā. Vispirms atlasiet diapazonu A8:B12 un pēc tam ievadiet formulu "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" šī diapazona pirmajā šūnā (A8). Pēc tam, kad nospiedīsiet CTRL + SHIFT +ENTER, Excel atgriezīs rezultātu kā.Salīdzinot ar 3.4. attēlu, var redzēt, ka 19993,3 ir pabeigtās skolas augstākā gada koeficients, bet 1167,8 ir konstanta vērtība. Jebkurā gadījumā es iesaku jums izmantot Add-Ins rīku, tas ir daudz vienkāršāk.
Lasīt vairāk...
Atgriezeniskā "kas nu kā" analīze programmā Excel
Kā lietot aizstājējzīmes programmā Excel?
Lejupielādēt darba failu
Lejupielādējiet darba failu no tālāk norādītās saites.
Multiple-Regression-Analysis.xlsx