Indholdsfortegnelse
Simpel regression analyse bruges almindeligvis til at vurdere forholdet mellem to variabler, f.eks. forholdet mellem afgrødeudbytte og nedbør eller forholdet mellem brødets smag og ovnens temperatur. Vi har dog oftere brug for at undersøge forholdet mellem en afhængig variabel og to eller flere uafhængige variabler. En ejendomsmægler vil f.eks. gerne videom og hvordan foranstaltninger som f.eks. husets størrelse, antallet af soveværelser og den gennemsnitlige indkomst i nabolaget hænger sammen med den pris, som et hus sælges til. Denne type problem kan løses ved at anvende multipel regressionsanalyse. I denne artikel får du en oversigt over, hvordan du udfører multipel regressionsanalyse med Excel.
Problem
Lad os antage, at vi har taget 5 tilfældigt udvalgte sælgere og indsamlet de oplysninger, der er vist i nedenstående tabel: Har uddannelse eller motivation en indvirkning på det årlige salg eller ej?
Højeste fuldførte skoleår | Motivation målt ved hjælp af Higgins Motivation Scale | Årligt salg i dollars |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Ligning
Generelt, multipel regressionsanalyse antager, at der er en lineær sammenhæng mellem den afhængige variabel (y) og de uafhængige variabler (x1, x2, x3 ... xn), og denne form for lineær sammenhæng kan beskrives ved hjælp af følgende formel:
Y = konstant + β1*x1 + β2*x2+...+ βn*xn
Her er forklaringerne på konstanter og koefficienter:
Y | Den forudsagte værdi af Y |
Konstant | Y-interceptet |
β1 | Ændringen i Y for hver ændring i x1 med 1 trin |
β2 | Ændringen i Y for hver ændring i x2 med 1 trin |
... | ... |
βn | Ændringen i Y for hver ændring i xn med 1 trin |
Konstanten og β1, β2... βn kan beregnes på grundlag af de tilgængelige stikprøvedata. Når du har fået værdierne for konstant, β1, β2... βn, kan du bruge dem til at foretage forudsigelserne.
I vores problem er der kun to faktorer, som vi har interesse i. Derfor bliver ligningen:
Årligt salg = konstant + β1*(Højeste fuldførte skoleår) + β2*(Motivation målt ved Higgins motivationsskala)
Opsætning af model
Årssalg, højeste fuldførte skoleår og Motivation blev indtastet i kolonne A, kolonne B og kolonne C som vist i figur 1. Det er bedre altid at sætte den afhængige variabel (årssalg her) før de uafhængige variabler.
Figur 1
Download Analyse ToolPak
Excel tilbyder os en dataanalysefunktion, som kan returnere værdier af konstanter og koefficienter. Men før du kan bruge denne funktion, skal du downloade Analysis ToolPak. Her er hvordan du kan installere det.
Klik på den Fil tab -> Indstillinger og klik derefter på Tilføjelser på Excel-muligheder dialogboks. Klik på Gå til knappen nederst på Excel-muligheder dialogboksen for at åbne Tilføjelser dialogboksen. I dialogboksen Tilføjelser dialogboksen, skal du vælge Analyse TookPak afkrydsningsfeltet, og klik derefter på Ok .
Hvis du nu klikker på Data fanen, vil du se Analyse af data vises i Analyse gruppe (højre panel).
Figur 2 [klik på billedet for at se det i sin helhed]
Multiple regressionsanalyse
Klik på Analyse af data i den Analyse gruppe på den Data fanen. Vælg Regression I den tilskyndede Analyse af data dialogboks. Du kan også gøre andre statistisk analyse såsom t-test, ANOVA osv.
Figur 3.1
A Regression dialogboksen vises, når du har valgt Regression . udfylder dialogboksen som vist i figur 3.2.
Input Y Range indeholder den afhængige variabel og data, mens Input X Range indeholder uafhængige variabler og data. Her skal jeg minde om, at uafhængige variabler skal være i tilstødende kolonner. Og det maksimale antal uafhængige variabler er 15.
Da området A1: C1 indeholder variable etiketter, skal afkrydsningsfeltet Etiketter være markeret. Jeg anbefaler faktisk, at du medtager etiketter hver gang, når du udfylder Input Y Range og Input X Range. Disse etiketter er nyttige, når du gennemgår oversigtsrapporter, der returneres af Excel.
Figur 3.2
Ved at markere afkrydsningsfeltet Residualer kan du aktivere Excel til at liste residualer for hver observation. Se på figur 1, der er 5 observationer i alt, og du får 5 residualer. Residual er noget, der er tilbage, når du trækker den forudsagte værdi fra den observerede værdi. Standardiseret residual er residualet divideret med dets standardafvigelse.
Du kan også markere afkrydsningsfeltet Residualplot, som kan give Excel mulighed for at returnere residualplots. Antallet af residualplots er lig med antallet af uafhængige variabler. Et residualplot er en graf, der viser residualerne på Y-aksen og de uafhængige variabler på x-aksen. Tilfældigt spredte punkter omkring x-aksen i et residualplot indebærer, at de lineær regression F.eks. viser figur 3.3 tre typiske mønstre af residualplots. Kun det i venstre panel indikerer, at det er en god tilpasning til en lineær model. De to andre mønstre tyder på, at en ikke-lineær model passer bedre til den.
Figur 3.3
Excel returnerer et tilpasset linjeplot, hvis du markerer afkrydsningsfeltet Line Fit Plots. Et tilpasset linjeplot kan vise forholdet mellem en afhængig variabel og en uafhængig variabel. Med andre ord returnerer Excel det samme antal tilpassede linjeplot som den uafhængige variabel. Du får f.eks. 2 tilpassede linjeplot for vores problem.
Resultater
Når du klikker på knappen Ok, vil Excel returnere en oversigtsrapport som nedenfor. Cellerne markeret med grøn og gul er den vigtigste del, som du skal være opmærksom på.
Figur 3.4
Jo højere R-kvadrat (celle F5), jo tættere sammenhæng er der mellem de afhængige og uafhængige variabler. Og koefficienterne (område F17: F19) i den tredje tabel viser værdierne for konstanter og koefficienter. Ligningen skal være Årligt salg = 1589,2 + 19928,3*(Højeste fuldførte skoleår) + 11,9*(Motivation målt ved Higgins Motivationsskala).
Men for at se, om resultaterne er pålidelige, skal du også kontrollere de p-værdier, der er fremhævet med gult. Kun hvis p-værdien i celle J12 er mindre end 0,05, er hele regressionsligningen pålidelig. Men du skal også kontrollere p-værdierne i intervallet I17: I19 for at se, om konstante og uafhængige variabler er nyttige for forudsigelsen af den afhængige variabel. I vores problem er det bedre for os at udelademotivation, når der tages hensyn til uafhængige variabler.
Læs mere: Sådan beregnes P-værdien i lineær regression i Excel (3 måder)
Fjern Motivation fra de uafhængige variabler
Efter at have fjernet Motivation som uafhængig variabel anvendte jeg samme fremgangsmåde og lavede en simpel regressionsanalyse. Du kan se, at alle værdierne nu er mindre end 0,05. Den endelige ligning skulle være:
Årligt salg = 1167,8 + 19993,3*(Højeste afsluttede skoleår)
Figur 3.5 [klik på billedet for at få et fuldt billede]
Bemærk
Figur 4
Ud over tilføjelsesværktøjet kan du også bruge LINEST-funktionen til at lave multipel regressionsanalyse. LINEST-funktionen er en array-funktion, der kan returnere resultatet i enten én celle eller et område af celler. Først og fremmest skal du vælge område A8:B12 og derefter indtaste formlen "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" i den første celle i dette område (A8). Når du trykker på CTRL + SHIFT +ENTER, vil Excel returnere resultaterne somVed at sammenligne med figur 3.4 kan man se, at 19993,3 er koefficienten for det højeste afsluttede skoleår, mens 1167,8 er konstant. Jeg vil dog anbefale, at man bruger Add-Ins værktøjet. Det er meget nemmere.
Læs mere...
Omvendt What-If-analyse i Excel
Hvordan man bruger jokertegn i Excel?
Download arbejdsfil
Download arbejdsfilen fra nedenstående link.
Multiple-regressionsanalyse.xlsx