Innehållsförteckning
Enkel regression analys används vanligen för att uppskatta sambandet mellan två variabler, till exempel sambandet mellan skördar och regn eller sambandet mellan brödsmak och ugnstemperatur. Oftast behöver vi dock undersöka sambandet mellan en beroende variabel och två eller flera oberoende variabler. En fastighetsmäklare kan till exempel vilja vetaom och hur åtgärder som husets storlek, antalet sovrum och den genomsnittliga inkomsten i grannskapet har ett samband med det pris som ett hus säljs för. multipel regressionsanalys. I den här artikeln får du en sammanfattning av hur du gör en multipel regressionsanalys med Excel.
Problem
Anta att vi tar fem slumpmässigt utvalda säljare och samlar in den information som visas i nedanstående tabell: Har utbildning eller motivation någon inverkan på den årliga försäljningen eller inte?
Högsta avslutade skolår | Motivation enligt Higgins motivationsskala | Årlig försäljning i dollar |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Ekvation
I allmänhet, analys av multipel regression utgår från att det finns ett linjärt samband mellan den beroende variabeln (y) och de oberoende variablerna (x1, x2, x3 ... xn). Ett sådant linjärt samband kan beskrivas med hjälp av följande formel:
Y = konstant + β1*x1 + β2*x2+...+ βn*xn
Här är förklaringarna till konstanter och koefficienter:
Y | Det förutspådda värdet av Y |
Konstant | Y-interceptet |
β1 | Förändringen i Y för varje förändring av x1 med 1 steg. |
β2 | Förändringen av Y för varje förändring av x2 med 1 steg. |
... | ... |
βn | Förändringen i Y för varje förändring av xn med 1 steg. |
Konstanten och β1, β2... βn kan beräknas utifrån tillgängliga provdata. När du har fått värden för konstanten, β1, β2... βn kan du använda dem för att göra förutsägelser.
När det gäller vårt problem finns det bara två faktorer som vi är intresserade av. Därför blir ekvationen:
Årlig försäljning = konstant + β1*(Högsta avslutade skolår) + β2*(Motivation enligt Higgins motivationsskala)
Konfigurera modellen
Årsförsäljning, högsta avslutade skolår och motivation angavs i kolumn A, kolumn B och kolumn C enligt figur 1. Det är bättre att alltid ange den beroende variabeln (årsförsäljning) före de oberoende variablerna.
Figur 1
Ladda ner Analysis ToolPak
Excel erbjuder oss en funktion för dataanalys som kan återge värden för konstanter och koefficienter. Men innan du kan använda den här funktionen måste du ladda ner Analysis ToolPak. Så här kan du installera den.
Klicka på Fil fliken -> Alternativ och klicka sedan på Tilläggsfunktioner på Excel-alternativ dialogrutan. Klicka på Gå till knappen längst ner i Excel-alternativ för att öppna dialogrutan Tilläggsfunktioner dialogrutan. I dialogrutan Tilläggsfunktioner dialogrutan, välj Analys TookPak och klicka sedan på Ok .
Om du nu klickar på Uppgifter kommer du att se följande Analys av data visas i Analys gruppen (högra panelen).
Figur 2 [klicka på bilden för att få en fullständig bild].
Analys av multipel regression
Klicka på Analys av data i den Analys gruppen på Uppgifter flik. Välj Regression I den uppmanade Analys av data dialogrutan. Du kan också göra andra statistisk analys t.ex. t-test, ANOVA och så vidare.
Figur 3.1
A Regression dialogrutan kommer att visas efter att du har valt Regression Fyll i dialogrutan som visas i figur 3.2.
Input Y Range innehåller den beroende variabeln och data medan Input X Range innehåller oberoende variabler och data. Här måste jag påminna er om att oberoende variabler ska finnas i intilliggande kolumner och att det maximala antalet oberoende variabler är 15.
Eftersom intervallet A1: C1 innehåller variabla etiketter bör kryssrutan Etiketter vara markerad. Jag rekommenderar att du inkluderar etiketter varje gång du fyller in Input Y Range och Input X Range. Etiketterna är användbara när du granskar sammanfattningsrapporter som Excel returnerar.
Figur 3.2
Genom att markera kryssrutan Residualer kan du aktivera Excel att lista residualer för varje observation. Titta på figur 1, det finns totalt 5 observationer och du får 5 residualer. Residual är något som blir kvar när du subtraherar det förutsagda värdet från det observerade värdet. Standardiserad residual är residualet dividerat med dess standardavvikelse.
Du kan också markera kryssrutan Residual Plot, vilket gör det möjligt för Excel att returnera residualplottar. Antalet residualplottar är lika med antalet oberoende variabler. En residualplott är ett diagram som visar residualerna på Y-axeln och de oberoende variablerna på x-axeln. Slumpmässigt utspridda punkter runt x-axeln i en residualplott innebär att linjär regression Figur 3.3 visar till exempel tre typiska mönster för residualdiagrammen. Endast det i den vänstra panelen visar att det är en bra anpassning för en linjär modell. De andra två mönstren tyder på att det är bättre anpassning för en icke-linjär modell.
Figur 3.3
Excel returnerar en anpassad linjediagram om du markerar kryssrutan Linjeanpassade diagram. Ett anpassat linjediagram kan visa förhållandet mellan en beroende variabel och en oberoende variabel. Med andra ord returnerar Excel samma antal anpassade linjediagram som den oberoende variabeln. Du får till exempel två anpassade linjediagram för vårt problem.
Resultat
När du har klickat på Ok-knappen kommer Excel att visa en sammanfattande rapport enligt nedan. Cellerna som är markerade i grönt och gult är de viktigaste delarna som du bör uppmärksamma.
Figur 3.4
Ju högre R-kvadrat (cell F5), desto starkare är sambandet mellan de beroende variablerna och de oberoende variablerna. Koefficienterna (område F17: F19) i den tredje tabellen visar värdena för konstanter och koefficienter. Ekvationen bör vara Årlig försäljning = 1589,2 + 19928,3*(Högsta avslutade skolår) + 11,9*(Motivation mätt med Higgins motivationsskala).
Men för att se om resultaten är tillförlitliga måste du också kontrollera de p-värden som är markerade i gult. Endast om p-värdet i cell J12 är mindre än 0,05 är hela regressionsekvationen tillförlitlig. Men du måste också kontrollera p-värdena i intervallet I17: I19 för att se om konstanta och oberoende variabler är användbara för att förutsäga den beroende variabeln. För vårt problem är det bättre för oss att uteslutamotivation när man beaktar oberoende variabler.
Läs mer: Hur man beräknar P-värdet i linjär regression i Excel (3 sätt)
Ta bort motivation från oberoende variabler.
Efter att ha tagit bort Motivation som oberoende variabel tillämpade jag samma tillvägagångssätt och gjorde en enkel regressionsanalys. Du kan se att alla värden är mindre än 0,05 nu. Den slutliga ekvationen bör vara:
Årlig försäljning = 1167,8 + 19993,3*(Högsta avslutade skolår)
Figur 3.5 [klicka på bilden för att få en fullständig bild].
Obs
Figur 4
Förutom tilläggsverktyget kan du också använda LINEST-funktionen för att göra en analys av multipel regression. LINEST-funktionen är en array-funktion som kan returnera resultatet i antingen en cell eller ett intervall av celler. Välj först och främst intervallet A8:B12 och skriv sedan in formeln "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" i den första cellen i intervallet (A8). Efter att du har tryckt på CTRL + SHIFT +ENTER kommer Excel att returnera resultatet somGenom att jämföra med figur 3.4 kan man se att 19993,3 är koefficienten för högsta avslutade skolår, medan 1167,8 är konstant. Jag rekommenderar att du använder Add-Ins-verktyget. Det är mycket enklare.
Läs mer...
Omvänd What-If-analys i Excel
Hur använder man jokertecken i Excel?
Ladda ner arbetsfilen
Ladda ner arbetsfilen från länken nedan.
Analys av multipel regression.xlsx