Sadržaj
Jednostavna regresijska analiza se obično koristi za procjenu odnosa između dvije varijable, na primjer, odnosa između prinosa usjeva i padavina ili odnosa između okusa kruha i temperature pećnice. Međutim, moramo češće nego ne istraživati odnos između zavisne varijable i dvije ili više nezavisnih varijabli. Na primjer, agent za nekretnine možda želi znati da li se i kako mjere kao što su veličina kuće, broj spavaćih soba i prosječni prihod u susjedstvu odnose na cijenu po kojoj se kuća prodaje. Ova vrsta problema se može riješiti primjenom višestruke regresijske analize. I ovaj članak će vam dati sažetak kako koristiti analizu višestruke regresije koristeći Excel.
Problem
Pretpostavimo da smo uzeli 5 nasumično odabranih prodavača i prikupili informacije kao što je prikazano u donjoj tabeli. Da li obrazovanje ili motivacija utječu na godišnju prodaju ili ne?
Najviša godina završene škole | Motivacija kao Izmjereno Higginsovom skalom motivacije | Godišnja prodaja u dolarima |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | 433.000$ |
Jednadžba
Općenito, višestrukoregresiona analiza pretpostavlja da postoji linearna veza između zavisne varijable (y) i nezavisnih varijabli (x1, x2, x3 … xn). A ova vrsta linearnog odnosa može se opisati pomoću sljedeće formule:
Y = konstanta + β1*x1 + β2*x2+…+ βn*xn
Evo objašnjenja za konstante i koeficijente :
Y | Predviđena vrijednost Y |
Konstanta | Y- intercept |
β1 | Promjena u Y svaki 1 prirast mijenja se u x1 |
β2 | The promjena u Y svaki 1 prirast promjena u x2 |
… | … |
βn | Promjena u Y svaki 1 prirast promjene u xn |
Konstante i β1, β2… βn mogu se izračunati na osnovu dostupnih podataka uzorka. Nakon što dobijete vrijednosti konstante, β1, β2… βn, možete ih koristiti za predviđanje.
Što se tiče našeg problema, postoje samo dva faktora koja nas zanimaju. Prema tome, jednadžba će biti:
Godišnja prodaja = konstanta + β1*(Najviša završena godina škole) + β2*(Motivacija mjerena Higginsovom skalom motivacije)
Postavite model
Godišnja prodaja, najviša završena godina škole i motivacija uneseni su u kolonu A, kolonu B i kolonu C kao što je prikazano na slici 1. Bolje je uvijek staviti zavisnu varijablu (ovdje godišnja prodaja) ispred nezavisnih varijabli .
Slika 1
Preuzmi paket alata za analizu
Excelnudi nam funkciju Data Analysis koja može vratiti vrijednosti konstanti i koeficijenata. Ali prije korištenja ove funkcije, morate preuzeti Analysis ToolPak. Evo kako ga možete instalirati.
Kliknite na karticu Datoteka -> Opcije i zatim kliknite na Dodaci u Opcije Excel dijaloški okvir. Kliknite na dugme Idi na dnu dijaloškog okvira Opcije Excel da otvorite dijaloški okvir Dodaci . U dijaloškom okviru Dodaci , potvrdite okvir Analysis TookPak i zatim kliknite na U redu .
Sada ako kliknete na Na kartici Data , vidjet ćete da se Analiza podataka pojavljuje u grupi Analiza (desni panel).
Slika 2 [kliknite na sliku za dobiti potpuni prikaz]
Analiza višestruke regresije
Kliknite na Analiza podataka u grupi Analiza na kartici Podaci . Odaberite Regresija U dijalogu Analiza podataka . Također možete raditi druge statističke analize kao što su t-test, ANOVA i tako dalje.
Slika 3.1
A Regresija dijalog će biti upitan nakon što odaberete Regresija . Popunite dijaloški okvir kao što je prikazano na slici 3.2.
Opseg unosa Y sadrži zavisnu varijablu i podatke, dok raspon unosa X sadrži nezavisne varijable i podatke. Ovdje vas moram podsjetiti da nezavisne varijable treba da budu u susjednim kolonama. A maksimalni broj nezavisnih varijabli je 15.
Odopseg A1: C1 uključuje varijabilne oznake i stoga treba označiti polje za potvrdu Labels. U stvari, preporučujem vam da uključite oznake svaki put kada popunjavate opseg unosa Y i opseg unosa X. Ove oznake su korisne kada pregledavate zbirne izvještaje koje vraća Excel.
Slika 3.2
Označavanjem potvrdnog okvira Residuals, možete omogućiti Excelu da navede ostatke za svako opažanje. Pogledajte sliku 1, ima ukupno 5 opservacija i dobićete 5 rezidua. Ostatak je nešto što ostane kada oduzmete predviđenu vrijednost od uočene vrijednosti. Standardizirani rezidual je rezidual podijeljen sa njegovom standardnom devijacijom.
Također možete odabrati potvrdni okvir Residual Plot koji može omogućiti Excel-u da vrati dijagrame reziduala. Broj rezidualnih dijagrama jednak je broju nezavisnih varijabli. Grafikon ostatka je graf koji prikazuje ostatke na Y-osi i nezavisne varijable na x-osi. Nasumično dispergovane tačke oko x-ose u rezidualnom dijagramu impliciraju da je model linearne regresije prikladan. Na primjer, slika 3.3 prikazuje tri tipična obrasca rezidualnih dijagrama. Samo onaj na lijevom panelu ukazuje da je dobar za linearni model. Druga dva obrasca sugeriraju bolje uklapanje za nelinearni model.
Slika 3.3
Excel će vratiti ugrađeni linijski grafikon ako potvrdite izbor u polju za potvrdu Line Fit Plots. Ugrađena parcelamože nacrtati odnos između jedne zavisne varijable i jedne nezavisne varijable. Drugim riječima, Excel će vam vratiti isti broj postavljenih linija kao i nezavisne varijable. Na primjer, dobićete 2 postavljene linije za naš problem.
Rezultati
Nakon što kliknete na dugme U redu, Excel će vratiti sažeti izvještaj kao u nastavku. Ćelije označene zelenom i žutom bojom su najvažniji dio na koji treba obratiti pažnju.
Slika 3.4
Što je veći R-kvadrat (ćelija F5), postoji čvrsta veza između zavisnih varijabli i nezavisnih varijabli. A koeficijenti (opseg F17: F19) u trećoj tabeli su vam vratili vrijednosti konstanti i koeficijenata. Jednačina bi trebala biti Godišnja prodaja = 1589,2 + 19928,3*(Najviša završena godina škole) + 11,9*(Motivacija mjerena Higginsovom skalom motivacije).
Međutim, da biste vidjeli jesu li rezultati pouzdani, trebate i da provjerite p-vrijednosti označene žutom bojom. Samo ako je p-vrijednost u ćeliji J12 manja od 0,05, cijela jednačina regresije je pouzdana. Ali također morate provjeriti p-vrijednosti u rasponu I17: I19 da vidite da li su konstantne i nezavisne varijable korisne za predviđanje zavisne varijable. Za naš problem, bolje je da odbacimo motivaciju kada razmatramo nezavisne varijable.
Pročitajte više: Kako izračunati P vrijednost u linearnoj regresiji u Excelu (3Načini)
Ukloni motivaciju iz nezavisnih varijabli
Nakon brisanja Motivacije kao nezavisne varijable, primijenio sam isti pristup i napravio jednostavnu regresijsku analizu. Sada možete vidjeti da su sve vrijednosti manje od 0,05. Konačna jednačina bi trebala biti:
Godišnja prodaja = 1167,8 + 19993,3*(Najviša završena godina škole)
Slika 3.5 [kliknite na sliku da biste dobili potpuni prikaz]
Napomena
Slika 4
Osim alata za dodatke, možete koristiti i funkciju LINEST za analizu višestruke regresije. Funkcija LINEST je funkcija niza koja može vratiti rezultat u jednoj ćeliji ili rasponu ćelija. Prije svega, odaberite raspon A8:B12, a zatim unesite formulu “=LINEST (A2:A6, B2:B6, TRUE, TRUE)” u prvu ćeliju ovog raspona (A8). Nakon što pritisnete CTRL + SHIFT +ENTER, Excel će vratiti rezultate kao u nastavku. Upoređivanjem sa slikom 3.4, možete vidjeti da je 19993,3 koeficijent najviše završene škole dok je 1167,8 konstantan. U svakom slučaju, preporučujem vam da koristite alatku za dodatke. Mnogo je lakše.
Pročitajte više…
Obrnite analizu šta ako u Excelu
Kako koristiti zamjenske znakove u Excelu?
Preuzmite radni fajl
Preuzmite radni fajl sa donje veze.
Multiple-Regression-Analysis. xlsx