Sisukord
Lihtne regressioon analüüsi kasutatakse tavaliselt kahe muutuja vahelise seose hindamiseks, näiteks põllukultuuride saagikuse ja vihmasadude vahelise seose või leiva maitse ja ahju temperatuuri vahelise seose hindamiseks. Siiski on meil sagedamini vaja uurida sõltuva muutuja ja kahe või enama sõltumatu muutuja vahelist seost. Näiteks võib kinnisvaramaakler soovida teada saadakas ja kuidas sellised mõõdikud nagu maja suurus, magamistubade arv ja naabruskonna keskmine sissetulek on seotud hinnaga, mille eest maja müüakse. Sellist probleemi saab lahendada, kohaldades mitmekordne regressioonanalüüs. See artikkel annab teile kokkuvõtte sellest, kuidas kasutada mitmekordset regressioonianalüüsi Exceli abil.
Probleem
Oletame, et võtsime 5 juhuslikult valitud müügimeest ja kogusime alljärgnevas tabelis esitatud andmed. Kas haridus või motivatsioon mõjutab aastamüüki või mitte?
Kõrgeim lõpetatud kooliaasta | Motivatsioon mõõdetuna Higginsi motivatsiooniskaalaga | Aastane müük dollarites |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Võrrand
Üldiselt, mitmekordne regressioonianalüüs eeldab, et sõltuva muutuja (y) ja sõltumatute muutujate (x1, x2, x3 ... xn) vahel on lineaarne seos. Ja sellist lineaarset seost saab kirjeldada järgmise valemiga:
Y = konstant + β1*x1 + β2*x2+...+ βn*xn
Siin on esitatud konstandide ja koefitsientide selgitused:
Y | Prognoositav väärtus Y |
Pidev | Y-lõikepunkt |
β1 | Muutus Y iga 1 sammu võrra muutuse x1 kohta |
β2 | Muutus Y iga x2 muutuse 1 inkrementi kohta |
... | ... |
βn | Y muutus iga xn muutuse 1 inkrementi kohta |
Konstanti ja β1, β2... βn saab arvutada olemasolevate valimiandmete põhjal. Kui olete saanud konstandi, β1, β2... βn väärtused, saate neid kasutada prognooside tegemiseks.
Mis puutub meie probleemi, siis on ainult kaks tegurit, mille vastu me huvi tunneme. Seega on võrrand:
Aastamüük = konstant + β1*(kõrgeim lõpetatud kooliaasta) + β2*(motivatsioon, mõõdetuna Higginsi motivatsiooniskaalaga)
Mudeli seadistamine
Aastane käive, kõrgeim lõpetatud kooliaasta ja motivatsioon sisestati veergu A, veergu B ja veergu C, nagu on näidatud joonisel 1. Sõltuv muutuja (aastane käive) on parem panna alati enne sõltumatuid muutujaid.
Joonis 1
Lae alla Analysis ToolPak
Excel pakub meile andmeanalüüsi funktsiooni, mis võib tagastada konstantide ja koefitsientide väärtused. Kuid enne selle funktsiooni kasutamist peate alla laadima Analysis ToolPak'i. Siin on, kuidas seda paigaldada.
Klõpsake nuppu Faili tab -> Valikud ja seejärel klõpsa Add-Ins aadressil Exceli valikud dialoogiaknas. Klõpsake Mine nuppu allosas Exceli valikud dialoogiakna avamiseks Add-Ins dialoogiaknas. Add-Ins dialoogiaknas valige Analüüs TookPak märkeruutu ja seejärel klõpsake Ok .
Kui te nüüd klõpsate Andmed vahekaardil näete Andmete analüüs ilmub Analüüs rühm (paremal paneel).
Joonis 2 [klõpsake pildil, et saada täisvaade]
Mitmekordne regressioonianalüüs
Klõpsake nuppu Andmete analüüs aastal Analüüs rühma kohta Andmed vahekaart. Valige Regressioon In küsitud Andmete analüüs dialoogiaknas. Saate teha ka muid statistiline analüüs nagu t-test, ANOVA jne.
Joonis 3.1
A Regressioon dialoogiboks kuvatakse pärast seda, kui olete valinud Regressioon . täitke dialoogiboks, nagu on näidatud joonisel 3.2.
Input Y Range sisaldab sõltuvat muutujat ja andmeid, samas kui Input X Range sisaldab sõltumatuid muutujaid ja andmeid. Siinkohal pean teile meelde tuletama, et sõltumatud muutujad peaksid olema kõrvuti asetsevates veergudes. Ja sõltumatute muutujate maksimaalne arv on 15.
Kuna vahemik A1: C1 sisaldab muutuja sildid ja seetõttu peaks olema märgitud märkeruut Labels. Tegelikult soovitan teil lisada sildid iga kord, kui täidate Input Y Range ja Input X Range. Need sildid on kasulikud, kui vaatate Exceli poolt tagastatud koondaruandeid.
Joonis 3.2
Valides ruutu Residuals, saate lubada Excelil loetleda iga vaatluse kohta jääkid. Vaadake joonist 1, seal on kokku 5 vaatlust ja te saate 5 jääkid. Jääk on midagi, mis jääb järele, kui te lahutate prognoositud väärtuse vaadeldavast väärtusest. Standardiseeritud jääk on jääk, mis jagatakse selle standardhälbega.
Võite valida ka ruutu Residual Plot, mis võimaldab Excelil tagastada jääkdiagrammid. Jääkdiagrammide arv võrdub sõltumatute muutujate arvuga. Jääkdiagramm on graafik, mis näitab jäägid Y-teljel ja sõltumatud muutujad x-teljel. Juhuslikult hajutatud punktid ümber x-telje jääkdiagrammil tähendavad, et lineaarne regressioon mudel on sobiv. Näiteks joonisel 3.3 on näidatud kolm tüüpilist jääkide graafikut. Ainult vasakpoolne näitab, et see sobib hästi lineaarse mudeli jaoks. Kaks ülejäänud mustrit viitavad sellele, et see sobib paremini mittelineaarsele mudelile.
Joonis 3.3
Excel tagastab kohandatud joongraafiku, kui te valite ruutu Line Fit Plots. Kohandatud joongraafik võib kujutada ühe sõltuva muutuja ja ühe sõltumatu muutuja vahelist seost. Teisisõnu, Excel tagastab teile sama arvu kohandatud joongraafikuid, kui on sõltumatu muutuja. Näiteks meie probleemi jaoks saate 2 kohandatud joongraafikut.
Tulemused
Pärast nupule Ok klõpsamist annab Excel tagasi kokkuvõtliku aruande, nagu allpool. Rohelise ja kollase värviga esile tõstetud lahtrid on kõige olulisem osa, millele peaksite tähelepanu pöörama.
Joonis 3.4
Mida suurem on R-ruut (lahter F5), seda tihedam seos on sõltuvate muutujate ja sõltumatute muutujate vahel. Ja koefitsiendid (vahemik F17: F19) kolmandas tabelis tagastasid teile konstantide ja koefitsientide väärtused. Võrrand peaks olema Aastane käive = 1589,2 + 19928,3*(kõrgeim lõpetatud kooliaasta) + 11,9*(motivatsioon mõõdetuna Higginsi motivatsiooniskaalaga).
Kuid selleks, et näha, kas tulemused on usaldusväärsed, tuleb kontrollida ka kollasega märgitud p-väärtusi. Ainult siis, kui p-väärtus lahtris J12 on väiksem kui 0,05, on kogu regressioonivõrrand usaldusväärne. Kuid tuleb kontrollida ka p-väärtusi vahemikus I17: I19, et näha, kas konstant ja sõltumatud muutujad on kasulikud sõltuva muutuja ennustamiseks. Meie probleemi puhul on parem, kui me jätame kõrvalemotivatsioon sõltumatute muutujate arvestamisel.
Loe lisaks: Kuidas arvutada P-väärtust lineaarses regressioonis Excelis (3 võimalust)
Eemaldage motivatsioon sõltumatutest muutujatest
Pärast Motivatsiooni kui sõltumatu muutuja kustutamist rakendasin sama lähenemist ja tegin lihtsa regressioonanalüüsi. Näete, et kõik väärtused on nüüd alla 0,05. Lõplik võrrand peaks olema:
Aastane käive = 1167,8 + 19993,3*(kõrgeim lõpetatud õppeaasta)
Joonis 3.5 [klõpsake pildil, et saada täisvaade]
Märkus
Joonis 4
Lisaks Add-Ins tööriistale saate mitme regressioonianalüüsi tegemiseks kasutada ka funktsiooni LINEST. Funktsioon LINEST on massiivi funktsioon, mis võib tagastada tulemuse kas ühes lahtris või rakkude vahemikus. Kõigepealt valige vahemik A8:B12 ja seejärel sisestage selle vahemiku esimesse lahtrisse (A8) valem "=LINEST (A2:A6, B2:B6, TRUE, TRUE)". Kui vajutate CTRL + SHIFT +ENTER, annab Excel tulemused tagasi kujulallpool. Võrreldes joonisega 3.4, näete, et 19993,3 on koefitsient Kõrgeim lõpetatud kooliaasta, samas kui 1167,8 on konstantne. Igatahes soovitan teil kasutada Add-Ins tööriista. See on palju lihtsam.
Loe edasi...
Pööratud What-If-analüüs Excelis
Kuidas kasutada Excelis metsikuid sümboleid?
Lae alla tööfaili
Lae alla töötav fail allolevalt lingilt.
Multiple-Regression-Analysis.xlsx