Hvordan tolke regresjonsresultater i Excel (detaljert analyse)

  • Dele Denne
Hugh West

Regresjonsanalyse er i nesten alle typer statistisk programvare som SPSS , R, og for ikke å nevne Excel. Regresjon kan gi oss det store bildet om sammenhenger mellom variabler. Lineær regresjon kan gjøres ganske raskt i Excel ved å bruke Dataanalyse -verktøyet. Denne artikkelen vil vise hvordan du kan tolke regresjonsresultater i Excel.

Last ned øvelsesarbeidsbok

Last ned denne øvelsesarbeidsboken nedenfor.

Tolk regresjonsresultater.xlsx

Hva er regresjon?

Regresjonsanalyse brukes ofte i dataanalyse for å bestemme assosiasjonene mellom flere variabler. Regresjonsanalyse lar deg velge hva som skjer med den avhengige variabelen hvis en av de uavhengige variablene endres. Den lar deg også finne ut matematisk hvilke uavhengige variabler som har innflytelse.

Enkel lineær regresjon er forskjellig fra en multippel lineær regresjon i statistikk. Ved hjelp av en lineær funksjon analyserer enkel lineær regresjon assosiasjonen mellom variablene og én uavhengig variabel. Multippel lineær regresjon er når to eller flere forklaringsfaktorer brukes for å bestemme variablene. Å bruke ikke-lineær regresjon i stedet for den avhengige variabelen beskrives som en ikke-lineær funksjon siden datarelasjonene ikke er lineære. Denne artikkelen vil konsentrere seg om flere lineæreregresjon for å demonstrere hvordan du kan tolke regresjonsresultater i Excel.

Trinn for å gjøre regresjon i Excel

For regresjonsformål vil vi bruke datasettet nedenfor for analyseformål. Her vil den uavhengige variabelen være Pris -kolonnen og Solgt -kolonnen. uavhengig -kolonnen vil være Demand -kolonnen.

Trinn

  • Vi må gå til Data -fanen og klikke på Dataanalyse for å gjøre regresjon .

  • Det kommer et nytt vindu; velg dataområdet for den avhengige variabelen og den uavhengige variabelen.
  • Klikk deretter av for Etiketter og Confidence .
  • Klikk deretter på utdatacelleområdet boksen for å velge utdatacelleadressen
  • Deretter merker du av Residual for å beregne residualene.
  • Etter det merker du av for Residual -plottene og Line Fit Plots-bokser
  • Klikk OK etter dette.

  • Etter å ha klikket OK, de primære utdataparametrene for analysen vil være ved de spesifiserte cellene.

  • Da vil du også få noen parametere slik som Signifikans verdi osv. i ANOVA ( Analysis of Variance )-tabellen.
  • Her angir df frihetsgrad knyttet til varianskilden.
  • SS betegner summen av kvadrater. Modellen din vil reflektere dataene bedre hvis Residual SS er mindre enn Total SS.
  • MS betyr kvadrat.
  • F betegner F -testen for nullhypotesen.
  • Signifikans F angir P -verdien til F .

  • Da vil du også få variabelens koeffisienter, signifikansverdi osv i en tabell.

  • Da vil du få en endelig tabell under koeffisienttabellen som inneholder restverdien for hver oppføring.

  • Deretter får du regresjonsdiagrammet Etterspørsel vs Pris , med en trendlinje.

  • Etter dette får du regresjonsdiagrammet Demand vs Solgt med en trendlinje.

  • Det er en annen diagram som viser fordelingen av residualer for hver oppføring fra Solgt variabelen.

  • Det er et annet diagram som viser fordelingen av residualer av hver oppføring fra Pris variabelen.

Deretter viser vi deg hvordan du kan n tolk disse regresjonsresultatene i Excel.

Les mer: Hvordan gjøre logistisk regresjon i Excel (med raske trinn)

Hvordan tolke Regresjonsresultater i Excel

Det neste du må gjøre etter å ha gjort regresjonsanalysen og tolket dem. Resultatene er beskrevet og utdypet nedenfor.

Multiple R-Squared Regression Value Analysis

The R-kvadrat -tall indikerer hvor nært datasettets elementer er relatert og hvor godt regresjonslinjen samsvarer med dataene. Vi skal bruke den multiple lineære regresjonsanalysen, der vi skal bestemme virkningen av to eller flere variabler på hovedfaktoren. Dette refererer til hvordan den avhengige variabelen endres når en av de uavhengige variablene endres. Området til denne koeffisienten er fra -1 til 1. Her betyr

  • 1 en nær positiv sammenheng
  • 0 betyr at det ikke er noen sammenhenger mellom variabler. Med andre ord, datapunktene er tilfeldige.
  • -1 betyr invers eller negativ sammenheng mellom variabler.

I utdataresultatene vist ovenfor, den multiple R-verdien til den gitte datasett er o.7578( ca ), noe som indikerer sterke relasjoner mellom variablene.

R Squared

R squared verdi forklarer hvordan responsen til avhengige variabler varierer til den uavhengige variabelen. I vårt tilfelle er verdien 0,574(ca), som kan tolkes som et rimelig greit forhold mellom variablene.

Justert R-Squared

Dette er bare en alternativ versjon av R kvadrat verdien. Dette blander ganske enkelt prediktor- variablene mens det forutsier respons -variabelen. Den beregnes som

R^2 = 1 – [(1-R^2)*(n-1)/(n-k-1)]

Her, R^2 : R^2 -verdien vi fikk fradatasettet.

n : antall observasjoner.

K : antall prediktorvariabler.

Betydningen av denne verdien oppstår mens du gjør regresjonsanalyse mellom to prediktor -variabler. Hvis det er mer enn én prediktor -variabel i datasettet, vil R-kvadratverdien blåses opp, noe som er svært uønsket. Den justerte R-kvadrerte -verdien justerer denne inflasjonen og gir et nøyaktig bilde av variablene.

Standardfeil

En annen godhetsmåling som indikerer nøyaktigheten av regresjonsanalysen din; jo lavere verdi, desto sikrere kan du være i regresjonsanalysen.

Standardfeil er en empirisk beregning som representerer den gjennomsnittlige avstanden som punktene avviker fra trendlinjen. I kontrast representerer R2 andelen av avhengig variabel variasjon. I dette tilfellet er verdien av Standardfeil 288,9 ( omtrent ), som indikerer at datapunktene våre i gjennomsnitt faller 288,9 fra trendlinjen.

Observasjoner

Angi antall observasjoner eller oppføringer.

Fast ut signifikant variabel

Signifikansverdien indikerer påliteligheten (statistisk god) av analysen vår. Med andre ord, det angir sannsynligheten for at datasettet vårt er feil. Denne verdien bør være under 5 %. Men i dette tilfellet er signifikansverdien vår  0,00117,som tilsvarer 0,1 %, som er godt under 5 %. Så vår analyse er ok. Ellers må vi kanskje velge forskjellige variabler for analysen vår.

P-verdi i regresjonsanalyse

Nært knyttet til en signifikant verdi, P- verdi angir sannsynligheten for at koeffisientverdien er feil. P-verdi angir assosiasjonen av nullhypotesen med variablene.

Hvis din p-verdi < tallet signifikans , er det nok bevis til å forkaste nullverdihypotesen. Dette betyr at det er en ikke-null korrelasjon mellom variablene.

Men hvis p-verdien > Signifikans -verdien, vil det ikke være tilstrekkelig bevis til å avvise nullhypotesen. Det betyr at det ikke kunne være noen korrelasjon mellom variablene.

I eller tilfelle, P-verdien til variabelen Pris =0,000948 < 0,00117 (signifikansverdi),

Så det er ingen nullhypotese på gang her, og det er nok bevis til å erklære en korrelasjon mellom variabler.

På den annen side, for variabelen Solgt , (P-verdien) 0,0038515 < 0,0011723 (signifikansverdi)

Så det kan være en nullhypotese på gang her, og det er ikke nok bevis til å erklære en ikke-null korrelasjon mellom variabler.

I de fleste tilfeller er denne P -verdi bestemmer om en variabel vil være i datasettet eller ikke. For eksempel bør vi fjerne Solgt variabel for å bevare robustheten til datasettet.

Regresjonslikning

Når vi bestemmer den lineære regresjonsanalysen i Excel, bør trendlinjen også være lineær. Den generelle formen er:

Y=mX+C.

Her er Y den avhengige variabelen.

Og X er den uavhengige variabelen her, noe som betyr at vi vil bestemme effekten av endringen av variabel x på variabel Y.

C vil bare være verdien av Y-aksens skjæringspunkt for linje.

I dette tilfellet er verdien av C skjæringspunktet lik 9502.109853

Og verdien av m for de to variablene er -809.265 og 0.424818.

Så vi har den endelige ligningen for de to separate variablene.

Den første er:

Y=-809.265771X+9502.12

Og ligningen for den andre variabelen er:

Y=0.4248X+9502.12

Koeffisienter

Koeffisientene vi fikk er m1=-809,2655 og m2=04248 . Og interceptor, C= 9502.12 .

  • For det første indikerer interceptorverdien at etterspørselen vil være 9502 når prisen er null.
  • Og verdiene til m angir hastigheten som etterspørselen endres med per prisendring. Priskoeffisientverdien er -809,265, noe som indikerer at en prisøkning per enhet vil redusere etterspørselen med omtrent 809 enheter.
  • For den andre variabelen, Solgt, er m-verdien 0,424. Dette angir at endringen per solgt enhet varevil resultere i en 0424-tidsenhetsøkning av produktet.

Rester

Residual forskjellen mellom originalen og den beregnede oppføring fra regresjonslinjen er forskjellen. Rester indikerer hvor langt den faktiske verdien er fra linjen. For eksempel er den beregnede oppføringen fra regresjonsanalysen for den første oppføringen 9497. Og den første opprinnelige verdien er 9500. Så restverdien er rundt 2.109.

T-Statistics Value

T-statikkverdi er delingen av koeffisient med standardverdien. Jo høyere verdien er, jo bedre pålitelighet indikerer koeffisienten.

Det er en annen betydning av denne verdien, som kreves for å beregne P-verdien.

95 % konfidensintervallet

Her er konfidensen til variabelen vi satt til 95 i begynnelsen. Det kan imidlertid endres.

  • Her er koeffisientverdien til de nedre 95 % beregnet som 8496,84 betyr at de øvre 95 % beregnes som 10507,37,
  • Dette betyr at mens vår hovedkoeffisienten er omtrent, 9502.1. det er stor sjanse for at verdien kan være under 8496 i 95 % av tilfellene og 5 % sjanse for at den er over 10507.37

Les mer:

Ting å huske

Regresjonsanalysemetoden vurderer utelukkende forholdet mellom variabler som undersøkes. Det fastslår ikke årsakssammenheng. På andre måter, bare aspektetav korrelasjon vurderer. Når en handling forårsaker noe, blir det årsakssammenheng. Når en endring av én variabel skaper endringer, kan det betraktes som årsakssammenheng.

Regresjonsanalyse hindrer sterkt av uteliggere. Alle typer uteliggere må fjernes før analyse gjøres. For å analysere og tolke regresjonsanalyseresultater i Excel, må du vurdere disse punktene.

Konklusjon

For å oppsummere, er spørsmålet "hvordan tolke regresjonsresultater i Excel" besvart med utførlig analysere og senere tolke den. Analysen gjøres gjennom verktøyet Dataanalyse i kategorien Data .

For denne oppgaven er en arbeidsbok tilgjengelig for nedlasting der du kan øve på regresjonsanalyse og tolke det.

Still gjerne spørsmål eller tilbakemeldinger gjennom kommentarfeltet. Ethvert forslag til forbedring av Exceldemy -fellesskapet vil være svært verdsatt.

Hugh West er en svært erfaren Excel-trener og analytiker med over 10 års erfaring i bransjen. Han har en bachelorgrad i regnskap og finans og en mastergrad i bedriftsøkonomi. Hugh har en lidenskap for undervisning og har utviklet en unik undervisningstilnærming som er enkel å følge og forstå. Hans ekspertkunnskap om Excel har hjulpet tusenvis av studenter og fagfolk over hele verden med å forbedre sine ferdigheter og utmerke seg i karrieren. Gjennom bloggen sin deler Hugh sin kunnskap med verden, og tilbyr gratis Excel-opplæringer og nettbasert opplæring for å hjelpe enkeltpersoner og bedrifter å nå sitt fulle potensial.