Kazalo
Enostavna regresija analiza se običajno uporablja za oceno povezave med dvema spremenljivkama, na primer povezave med pridelki in padavinami ali povezave med okusom kruha in temperaturo pečice. Vendar pa moramo pogosteje kot ne raziskati povezavo med odvisno spremenljivko in dvema ali več neodvisnimi spremenljivkami. Na primer, nepremičninski agent želi vedetiali in kako so merila, kot so velikost hiše, število spalnic in povprečni dohodek v soseski, povezana s ceno, za katero se hiša proda. Tovrstne probleme je mogoče rešiti z uporabo večkratno regresijsko analizo. V tem članku boste izvedeli, kako z Excelom opraviti večkratno regresijsko analizo.
Problem
Predpostavimo, da smo vzeli 5 naključno izbranih prodajalcev in zbrali podatke, kot je prikazano v spodnji preglednici. Ali izobraževanje ali motivacija vpliva na letno prodajo ali ne?
Najvišje zaključeno šolsko leto | Motivacija, merjena z Higginsovo lestvico motivacije | Letna prodaja v dolarjih |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Enačba
Na splošno, večkratna regresijska analiza predpostavlja, da med odvisno spremenljivko (y) in neodvisnimi spremenljivkami (x1, x2, x3 ... xn) obstaja linearna povezava. Tovrstno linearno povezavo lahko opišemo z naslednjo formulo:
Y = konstanta + β1*x1 + β2*x2+...+ βn*xn
Tukaj so razlage za konstante in koeficiente:
Y | Napovedana vrednost Y |
Stalno | Intercepcija Y |
β1 | Sprememba v Y za vsak 1 korak spremembe x1 |
β2 | Sprememba Y za vsako spremembo x2 za 1 korak |
... | ... |
βn | Sprememba v Y za vsak 1 korak spremembe v xn |
Konstanto in β1, β2... βn lahko izračunate na podlagi razpoložljivih vzorčnih podatkov. Ko dobite vrednosti konstante, β1, β2... βn, jih lahko uporabite za izdelavo napovedi.
Pri našem problemu sta samo dva dejavnika, ki nas zanimata. Zato bo enačba naslednja:
Letna prodaja = konstanta + β1*(najvišje končano leto šolanja) + β2*(motivacija, merjena z Higginsovo lestvico motivacije)
Vzpostavitev modela
Letna prodaja, najvišji letnik končane šole in motivacija so bili vneseni v stolpec A, stolpec B in stolpec C, kot je prikazano na sliki 1. Bolje je, da se odvisna spremenljivka (tukaj letna prodaja) vedno vnese pred neodvisne spremenljivke.
Slika 1
Prenos orodja Analysis ToolPak
Excel nam ponuja funkcijo Analiza podatkov, ki lahko vrne vrednosti konstant in koeficientov. Toda pred uporabo te funkcije morate prenesti orodje Analysis ToolPak. Tukaj je opisano, kako ga lahko namestite.
Kliknite na Datoteka zavihek -> Možnosti in nato kliknite na Dodatki na spletnem mestu Možnosti programa Excel pogovorno okno. Kliknite na Go gumb na dnu Možnosti programa Excel pogovorno okno za odprtje Dodatki pogovorno okno. V pogovornem oknu Dodatki v pogovornem oknu izberite Analiza TookPak potrditveno polje in nato kliknite na Ok .
Če zdaj kliknete na Podatki v zavihku Analiza podatkov se pojavi v Analiza (desna plošča).
Slika 2 [kliknite na sliko, da si jo ogledate v celoti]
Večkratna regresijska analiza
Kliknite na Analiza podatkov v Analiza skupino v Podatki zavihek. Izberite Regresija V pozvanem Analiza podatkov pogovorno okno. statistična analiza kot so t-test, ANOVA in podobno.
Slika 3.1
A Regresija pogovorno okno se prikaže, ko izberete Regresija . izpolnite pogovorno okno, kot je prikazano na sliki 3.2.
Vnosno območje Y vsebuje odvisno spremenljivko in podatke, medtem ko vnosno območje X vsebuje neodvisne spremenljivke in podatke. Tu vas moram opozoriti, da morajo biti neodvisne spremenljivke v sosednjih stolpcih. Največje število neodvisnih spremenljivk je 15.
Ker območje A1: C1 vključuje spremenljive oznake, je treba izbrati potrditveno polje Oznake. Pravzaprav vam priporočam, da vključite oznake vsakič, ko izpolnjujete območje vnosa Y in območje vnosa X. Te oznake so koristne, ko pregledujete zbirna poročila, ki jih vrne Excel.
Slika 3.2
Z izbiro potrditvenega polja Residuals (Ostanki) lahko Excelu omogočite, da za vsako opazovanje izpiše ostanke. Oglejte si sliko 1, skupaj je 5 opazovanj, zato boste dobili 5 ostankov. Ostanek je nekaj, kar ostane, ko odštejete napovedano vrednost od opazovane vrednosti. Standardizirani ostanek je ostanek, deljen s standardnim odklonom.
Izberete lahko tudi potrditveno polje Residual Plot, ki lahko Excelu omogoči, da vrne rezidualne grafe. Število rezidualnih grafov je enako številu neodvisnih spremenljivk. Rezidualni graf je graf, ki na osi Y prikazuje reziduale, na osi x pa neodvisne spremenljivke. Naključno razpršene točke okoli osi x na rezidualnem grafu pomenijo, da je linearna regresija Na primer, na sliki 3.3 so prikazani trije tipični vzorci rezidualnih diagramov. Samo tisti v levi plošči kaže, da se dobro prilega linearnemu modelu. Druga dva vzorca kažeta, da se bolje prilega nelinearnemu modelu.
Slika 3.3
Excel bo vrnil prilegajoči se linijski diagram, če izberete potrditveno polje Prilegajoči se linijski diagrami. Prilegajoči se linijski diagram lahko prikazuje razmerje med eno odvisno spremenljivko in eno neodvisno spremenljivko. Z drugimi besedami, Excel vam bo vrnil enako število prilegajočih se linijskih diagramov z neodvisno spremenljivko. Za naš problem boste na primer dobili 2 prilegajoča se linijska diagrama.
Rezultati
Ko kliknete gumb Ok, Excel vrne zbirno poročilo, kot je prikazano spodaj. Zeleno in rumeno označene celice so najpomembnejši del, na katerega morate biti pozorni.
Slika 3.4
Višji kot je R-kvadrat (celica F5), tesnejša povezava obstaja med odvisnimi in neodvisnimi spremenljivkami. Koeficienti (območje F17: F19) v tretji tabeli pa so vam vrnili vrednosti konstant in koeficientov. Enačba bi morala biti Letna prodaja = 1589,2 + 19928,3*(najvišje končano leto šolanja) + 11,9*(motivacija, merjena z Higginsovo lestvico motivacije).
Da pa bi ugotovili, ali so rezultati zanesljivi, morate preveriti tudi p-vrednosti, označene z rumeno barvo. le če je p-vrednost v celici J12 manjša od 0,05, je celotna regresijska enačba zanesljiva. preveriti pa morate tudi p-vrednosti v območju I17: I19, da ugotovite, ali so konstanta in neodvisne spremenljivke uporabne za napovedovanje odvisne spremenljivke. Za naš problem je bolje, da zavržemomotivacija pri obravnavi neodvisnih spremenljivk.
Preberite več: Kako izračunati vrednost P v linearni regresiji v Excelu (3 načini)
Motivacijo odstranite iz neodvisnih spremenljivk
Po izbrisu motivacije kot neodvisne spremenljivke sem uporabil enak pristop in izvedel preprosto regresijsko analizo. Vidite, da so zdaj vse vrednosti manjše od 0,05. Končna enačba bi morala biti:
Letna prodaja = 1167,8 + 19993,3*(Najvišje zaključeno šolsko leto)
Slika 3.5 [kliknite na sliko, da si jo ogledate v celoti]
Opomba
Slika 4
Poleg orodja Add-Ins lahko za večkratno regresijsko analizo uporabite tudi funkcijo LINEST. Funkcija LINEST je funkcija polja, ki lahko vrne rezultat v eni celici ali območju celic. Najprej izberite območje A8:B12 in nato v prvo celico tega območja (A8) vnesite formulo "=LINEST (A2:A6, B2:B6, TRUE, TRUE)". Po pritisku CTRL + SHIFT +ENTER bo Excel vrnil rezultate kotspodaj. S primerjavo s sliko 3.4 lahko vidite, da je 19993,3 koeficient najvišjega zaključenega leta šolanja, medtem ko je 1167,8 konstanten. Vsekakor vam priporočam uporabo orodja Add-Ins, saj je veliko lažje.
Preberite več...
Povratna analiza kaj-če-čebe v programu Excel
Kako uporabljati nadomestne črke v programu Excel?
Prenesite delovno datoteko
Prenesite delovno datoteko s spodnje povezave.
Večkratna regresijska analiza.xlsx