Multippel regresjonsanalyse med Excel

  • Dele Denne
Hugh West

Enkel regresjonsanalyse brukes ofte for å estimere sammenhengen mellom to variabler, for eksempel forholdet mellom avling og nedbør eller forholdet mellom smaken av brød og ovnstemperatur. Imidlertid må vi undersøke sammenhengen mellom en avhengig variabel og to eller flere uavhengige variabler oftere enn ikke. En eiendomsmegler kan for eksempel være lurt å vite om og hvordan mål som størrelsen på huset, antall soverom og gjennomsnittsinntekten i nabolaget henger sammen med prisen et hus selges for. Denne typen problemer kan løses ved å bruke multippel regresjonsanalyse. Og denne artikkelen vil gi deg en oppsummering av hvordan du bruker gjør multippel regresjonsanalyse ved hjelp av Excel.

Oppgave

Anta at vi tok 5 tilfeldig utvalgte selgere og samlet inn informasjonen som vist i tabellen nedenfor. Om utdanning eller motivasjon har en innvirkning på årlig salg eller ikke?

Høyeste skoleår fullført Motivasjon som Målt ved Higgins Motivation Scale Årlig salg i dollar
12 32 $350 000
14 35 $399 765
15 45 $429 000
16 50 $435 000
18 65 $433 000

Ligning

Generelt, multiplumregresjonsanalyse antar at det er en lineær sammenheng mellom den avhengige variabelen (y) og uavhengige variabler (x1, x2, x3 … xn). Og denne typen lineær sammenheng kan beskrives ved hjelp av følgende formel:

Y = konstant + β1*x1 + β2*x2+…+ βn*xn

Her er forklaringene for konstanter og koeffisienter :

Y Den anslåtte verdien av Y
Konstant Y- avskjæring
β1 Endringen i Y hver 1 inkrement endring i x1
β2 endring i Y hver 1 inkrement endring i x2
βn Endringen i Y hver 1 inkrement endring i xn

Konstant og β1, β2… βn kan beregnes basert på tilgjengelige prøvedata. Etter at du har fått verdier av konstant, β1, β2… βn, kan du bruke dem til å lage spådommene.

Når det gjelder problemet vårt, er det bare to faktorer vi har en interesse i. Derfor vil ligningen være:

Årlig salg = konstant + β1*(Høyeste skoleår fullført) + β2*(Motivasjon målt ved Higgins Motivasjonsskala)

Oppsettmodell

Årlig salg, høyeste skoleår fullført og Motivasjon ble lagt inn i kolonne A, kolonne B og kolonne C som vist i figur 1. Det er bedre å alltid sette den avhengige variabelen (Årlig salg her) foran de uavhengige variablene .

Figur 1

Last ned Analysis ToolPak

Exceltilbyr oss dataanalysefunksjon som kan returnere verdier av konstanter og koeffisienter. Men før du bruker denne funksjonen, må du laste ned Analysis ToolPak. Slik kan du installere det.

Klikk på Fil -fanen -> Alternativer og klikk deretter på Add-Ins i Excel-alternativer -dialogboksen. Klikk på -knappen nederst i dialogboksen Excel-alternativer for å åpne dialogboksen Tillegg . I dialogboksen Add-Ins velger du Analysis TookPak og klikker på Ok .

Nå hvis du klikker på Data -fanen, vil du se Dataanalyse vises i Analyse -gruppen (høyre panel).

Figur 2 [klikk på bildet for å få en full visning]

Multippel regresjonsanalyse

Klikk på Dataanalyse i Analyse -gruppen på Data -fanen . Velg Regresjon i dialogboksen Dataanalyse som vises. Du kan også gjøre andre statistiske analyser som t-test, ANOVA og så videre.

Figur 3.1

A Regresjon dialogboksen vil bli spurt etter at du har valgt Regresjon . Fyll dialogboksen som vist i figur 3.2.

Input Y Range inneholder den avhengige variabelen og data mens Input X Range inneholder uavhengige variabler og data. Her må jeg minne om at uavhengige variabler bør være i tilstøtende kolonner. Og det maksimale antallet uavhengige variabler er 15.

Sidenområde A1: C1 inkluderer variable etiketter, og derfor bør avmerkingsboksen Etiketter merkes. Faktisk anbefaler jeg deg å inkludere etiketter hver gang du fyller inn Y-område og inndata X-område. Disse etikettene er nyttige når du gjennomgår sammendragsrapporter returnert av Excel.

Figur 3.2

Ved å merke av for Residualer kan du aktivere Excel til å vise rester for hver observasjon. Se på figur 1, det er 5 observasjoner totalt og du vil få 5 rester. Residual er noe som er igjen når du trekker den predikerte verdien fra den observerte verdien. Standardisert residual er residual dividert med standardavvik.

Du kan også merke av for Residual Plot som kan gjøre det mulig for Excel å returnere residualplott. Antall gjenværende plott tilsvarer antall uavhengige variabler. Et residualplott er en graf som viser residualene på Y-aksen og uavhengige variabler på x-aksen. Tilfeldig spredte punkter rundt x-aksen i et residualplott innebærer at lineær regresjon -modellen er passende. For eksempel viser figur 3.3 tre typiske mønstre av restplott. Bare den i venstre panel indikerer at den passer godt for en lineær modell. De to andre mønstrene foreslår en bedre tilpasning for en ikke-lineær modell.

Figur 3.3

Excel vil returnere et tilpasset linjeplott hvis du merker av for Linjetilpasningsplott. En montert linjetomtkan plotte forholdet mellom én avhengig variabel og én uavhengig variabel. Med andre ord, Excel vil returnere det samme antallet tilpassede linjeplott som den uavhengige variabelen. For eksempel vil du få 2 tilpassede linjeplott for problemet vårt.

Resultater

Etter at du har klikket på OK-knappen, vil Excel returnere en sammendragsrapport som nedenfor. Celler uthevet i grønt og gult er den viktigste delen du bør være oppmerksom på.

Figur 3.4

Jo høyere R-kvadrat (celle F5), det tette forholdet eksisterer mellom avhengige variabler og uavhengige variabler. Og koeffisienter (område F17: F19) i den tredje tabellen ga deg verdiene til konstanter og koeffisienter. Ligningen skal være Årlig salg = 1589,2 + 19928,3*(Høyeste skoleår fullført) + 11,9*(Motivasjon målt ved Higgins Motivation Scale).

For å se om resultatene er pålitelige, trenger du imidlertid også for å sjekke p-verdier uthevet i gult. Bare hvis p-verdien i celle J12 er mindre enn 0,05, er hele regresjonsligningen pålitelig. Men du må også sjekke p-verdier i området I17: I19 for å se om konstante og uavhengige variabler er nyttige for prediksjon av den avhengige variabelen. For vårt problem er det bedre for oss å forkaste motivasjon når vi vurderer uavhengige variabler.

Les mer: Hvordan beregne P-verdi i lineær regresjon i Excel (3Måter)

Fjern Motivasjon fra uavhengige variabler

Etter å ha slettet Motivasjon som den uavhengige variabelen, brukte jeg samme tilnærming og gjorde en enkel regresjonsanalyse. Du kan se at alle verdiene er mindre enn 0,05 nå. Den endelige ligningen skal være:

Årlig salg = 1167,8 + 19993,3*(Høyeste skoleår fullført)

Figur 3.5 [klikk på bildet for å få en full visning]

Merk

Figur 4

I tillegg til tilleggsverktøy, kan du også bruke LINJE-funksjonen til å gjøre multippel regresjonsanalyse. LINEST-funksjonen er en matrisefunksjon som kan returnere resultatet i enten én celle eller et celleområde. Først av alt, velg område A8:B12 og skriv deretter inn formelen "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" i den første cellen i dette området (A8). Etter at du har trykket CTRL + SHIFT + ENTER, vil Excel returnere resultater som nedenfor. Ved å sammenligne mot figur 3.4 kan du se at 19993.3 er koeffisienten Høyeste skoleår fullført mens 1167.8 er konstant. Uansett, jeg anbefaler deg å bruke tilleggsverktøy. Det er mye enklere.

Les mer...

Reverse What-If-analyse i Excel

Hvordan bruke jokertegn i Excel?

Last ned arbeidsfil

Last ned arbeidsfilen fra lenken nedenfor.

Multiple-Regression-Analysis. xlsx

Hugh West er en svært erfaren Excel-trener og analytiker med over 10 års erfaring i bransjen. Han har en bachelorgrad i regnskap og finans og en mastergrad i bedriftsøkonomi. Hugh har en lidenskap for undervisning og har utviklet en unik undervisningstilnærming som er enkel å følge og forstå. Hans ekspertkunnskap om Excel har hjulpet tusenvis av studenter og fagfolk over hele verden med å forbedre sine ferdigheter og utmerke seg i karrieren. Gjennom bloggen sin deler Hugh sin kunnskap med verden, og tilbyr gratis Excel-opplæringer og nettbasert opplæring for å hjelpe enkeltpersoner og bedrifter å nå sitt fulle potensial.