Sådan fortolker du regressionsresultater i Excel (detaljeret analyse)

  • Del Dette
Hugh West

Regressionsanalyse findes i næsten alle typer statistisk software som f.eks. SPSS , R, og ikke at forglemme Excel. Regression kan give os det store billede af sammenhængen mellem variabler. Lineær regression kan udføres ret hurtigt i Excel ved hjælp af Analyse af data værktøj. Denne artikel viser, hvordan du kan fortolke regressionsresultater i Excel.

Download arbejdsbog til øvelser

Download denne øvelsesarbejdsbog nedenfor.

Fortolke regressionsresultater.xlsx

Hvad er regression?

Regressionsanalyse bruges ofte i dataanalyse til at bestemme sammenhængen mellem flere variabler. Regressionsanalyse giver dig mulighed for at vælge, hvad der sker med den afhængige variabel, hvis en af de uafhængige variabler ændres. Den giver dig også mulighed for matematisk at finde ud af, hvilke uafhængige variabler der har en indflydelse.

Simpel lineær regression er forskellig fra en multipel lineær regression i statistik. Ved hjælp af en lineær funktion, enkle lineære regressionsanalyser sammenhængen mellem variablerne og en uafhængig variabel. Multipel lineær regression er, når to eller flere forklarende faktorer anvendes til at bestemme variablerne. Ved at anvende ikke-lineær regression i stedet for den afhængige variabel betegnes det som en ikke-lineær funktion, da dataforholdene ikke er lineære. Denne artikel vil koncentrere sig om multipel lineær regression for at vise, hvordan du kan fortolke regressionsresultater i Excel.

Trin til at lave regression i Excel

Til regressionsformål vil vi bruge nedenstående datasæt til analyseformål. Her vil den uafhængige variabel være den Pris kolonne og Sælges kolonne. uafhængig kolonnen vil være den Efterspørgsel kolonne.

Trin

  • Vi er nødt til at gå til Data og klik på fanen Analyse af data at foretage regression .

  • Der kommer et nyt vindue frem; vælg den afhængige variabel og det uafhængige variabelt dataramme.
  • Derefter afkrydser du Etiketter boks og Tillid boks.
  • Klik derefter på boksen for outputcelleområdet for at vælge outputcelleadressen
  • Herefter skal du sætte kryds ved Resterende til beregning af residualerne.
  • Herefter skal du krydse af i Resterende parceller og Kasser med line fit-plots
  • Klik på OK efter dette.

  • Når du har klikket på OK, de primære udgangsparametre for analysen vil være på de angivne celler.

  • Derefter får du også nogle parametre som f.eks. Betydning værdi osv. i den ANOVA ( Analyse af varians ) tabel.
  • Her, df angiver den frihedsgrad, der er knyttet til varianskilden.
  • SS angiver summen af kvadrater. Din model vil afspejle dataene bedre, hvis Resterende SS er mindre end den Samlet SS.
  • MS betyder firkantet.
  • F betegner den F -test for nulhypotesen.
  • Betydning F betegner den P -værdi af F .

  • Så får du også variablernes koefficienter, signifikansværdi osv. i en tabel.

  • Derefter får du en endelig tabel under koefficienttabellen, som indeholder restværdien for hver post.

  • Derefter får du den Efterspørgsel vs Pris regressionsdiagram med en trendlinje.

  • Herefter får du den Efterspørgsel vs Solgt regressionsdiagram med en trendlinje.

  • Der er et andet diagram, der viser fordelingen af residualer for hver post fra den Sælges variabel.

  • Der er et andet diagram, der viser fordelingen af residualer for hver post fra den Pris variabel.

Derefter viser vi dig, hvordan du kan fortolke disse regressionsresultater i Excel.

Læs mere: Hvordan man laver logistisk regression i Excel (med hurtige trin)

Sådan fortolker du regressionsresultater i Excel

Det næste, du skal gøre efter at have foretaget regressionsanalysen, er at fortolke dem. Resultaterne er beskrevet og uddybet nedenfor.

Analyse af regressionsværdi med flere R-kvadratværdier

R-kvadrat tallet angiver, hvor tæt datasættets elementer hænger sammen, og hvor godt regressionslinjen passer til dataene. Vi skal bruge den multiple lineære regressionsanalyse, hvor vi skal bestemme to eller flere variablers indvirkning på hovedfaktoren. Det drejer sig om, hvordan den afhængige variabel ændrer sig, når en af de uafhængige variabler ændrer sig. Intervallet for denne koefficient er fra-1 til 1. Her,

  • 1 betyder et tæt positivt forhold
  • 0 betyder, at der ikke er nogen sammenhæng mellem variablerne, dvs. at datapunkterne er tilfældige.
  • -1 betyder omvendt eller negativ sammenhæng mellem variablerne.

I outputresultaterne ovenfor er den multiple R-værdi for de givne datasæt o.7578( ca. ), hvilket indikerer en stærk sammenhæng mellem variablerne.

R kvadreret

R i kvadrat værdien forklarer, hvordan de afhængige variablers respons varierer i forhold til den uafhængige variabel. I vores tilfælde er værdien 0,574(ca.), hvilket kan fortolkes som en rimelig god sammenhæng mellem variablerne.

Justeret R-kvadrat

Dette er blot en alternativ udgave af den R i kvadrat værdi. Dette blander blot prædiktor variabler, mens de forudsiger den svar variabel. Den beregnes som

R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]

Her, R^2 : Den R^2 værdi, vi har fået fra datasættet.

n : antallet af observationer.

K : antallet af prædiktorvariabler.

Betydningen af denne værdi opstår, når man foretager en regressionsanalyse mellem to prædiktor variabler. Hvis der er mere end én prædiktor variabel i datasættet, så vil R-kvadratværdien blive for højt, hvilket er yderst uønsket. Den justerede R i kvadrat værdien justerer denne inflation og giver et nøjagtigt billede af variablerne.

Standardfejl

En anden måleenhed for god tilpasning, der angiver nøjagtigheden af din regressionsanalyse; jo lavere værdien er, jo mere sikker kan du være i din regressionsanalyse.

Standardfejl er en empirisk måleenhed, der repræsenterer den gennemsnitlige afstand, som punkterne afviger fra tendenslinjen. I modsætning hertil, R2 repræsenterer andelen af variationen i den afhængige variabel. I dette tilfælde er værdien af Standardfejl er 288,9 ( ca. ), hvilket viser, at vores datapunkter i gennemsnit falder 288,9 fra tendenslinjen.

Bemærkninger

Angiv antallet af observationer eller poster.

Bestem den signifikante variabel

Signifikansværdi angiver troværdigheden (statistisk forsvarlig) af vores analyse. Med andre ord angiver den sandsynligheden for, at vores datasæt er forkert. Denne værdi bør være under 5 %. Men i dette tilfælde er vores signifikansværdi 0,00117, hvilket svarer til 0,1 %, hvilket er langt under 5 %. Så vores analyse er i orden. Ellers skal vi måske vælge andre variabler til vores analyse.

P-værdi i regressionsanalyse

Tæt knyttet til en betydelig værdi, den P-værdi angiver sandsynligheden for, at koefficientværdien er forkert. P-værdien angiver sammenhængen mellem nulhypotesen og variablerne.

Hvis din p-værdi <den Betydning tal, er der tilstrækkelige beviser til at forkaste nulværdihypotesen. Det betyder, at der er en korrelation mellem variablerne, der ikke er nul.

Men hvis den p-værdi > Betydning værdi, vil der ikke være tilstrækkeligt bevis for at afvise nulhypotesen, hvilket betyder, at der ikke kan være nogen sammenhæng mellem variablerne.

I så fald skal den P-værdi af variabel Pris =0,000948 <0,00117 (signifikansværdi),

Der er altså ikke tale om en nulhypotese her, og der er tilstrækkeligt med beviser til at fastslå en sammenhæng mellem variablerne.

På den anden side, for variablen Solgt , den (P-værdi) 0.0038515 <0.0011723 (Signifikansværdi)

Der kan altså være tale om en nulhypotese, og der er ikke tilstrækkeligt med beviser til at fastslå en korrelation mellem variablerne, der ikke er nul.

I de fleste tilfælde er denne P-værdi afgørende for, om en variabel skal være med i datasættet eller ej. Vi bør f.eks. fjerne Sælges variabel for at bevare datasættets robusthed.

Regressionsligning

Da vi bestemmer den lineære regressionsanalyse i Excel, skal trendlinjen også være lineær. Den generelle form er:

Y=mX+C.

Her, Y er den afhængige variabel.

Og X er den uafhængige variabel her, hvilket betyder, at vi vil bestemme virkningen af ændringen af variabel x på variabel Y.

C vil blot være værdien af Y-aksens skæringspunkt for linjen.

I dette tilfælde er værdien af C-interceptet lig med 9502,109853

Og værdien af m for de to variabler er -809,265 og 0,424818.

Så vi har den endelige ligning for de to separate variabler.

Den første er:

Y=-809.265771X+9502.12

Og ligningen for den anden variabel er:

Y=0,4248X+9502,12

Koefficienter

De koefficienter, vi fik, er m1=-809.2655 og m2=04248 . og interceptor, C= 9502.12 .

  • For det første angiver interceptorværdien, at efterspørgslen vil være 9502, når prisen er nul.
  • Og værdierne for m angiver den hastighed, hvormed efterspørgslen ændrer sig pr. enhed prisændring. Priskoefficienten er -809,265, hvilket betyder, at en prisstigning pr. enhed vil reducere efterspørgslen med ca. 809 enheder.
  • For den anden variabel, Solgt, er m-værdien 0,424. Det betyder, at ændringen pr. enhed solgt vare vil resultere i en stigning på 0424 gange en enhed af produktet.

Restprodukter

Resterende forskellen mellem den oprindelige og den beregnede indgang fra regressionslinjen er forskellen. Restprodukter angiver, hvor langt den faktiske værdi er fra linjen. F.eks. er den beregnede værdi fra regressionsanalysen for den første post 9497. Og den første oprindelige værdi er 9500. Så restværdien er ca. 2,109.

T-statistik Værdi

T-statikværdien er koefficientens division af standardværdien. Jo højere værdien er, jo større pålidelighed indikerer koefficienten.

Der er en anden betydning af denne værdi, som er nødvendig for at beregne P-værdien.

Det 95 % konfidensinterval

Her er konfidensværdien for variablen, som vi i begyndelsen har sat til 95. Den kan dog ændres.

  • Her er koefficientværdien for de nederste 95% beregnet som 8496,84, hvilket betyder, at de øverste 95% er beregnet som 10507,37,
  • Det betyder, at selv om vores hovedkoefficient er ca. 9502,1, er der en stor chance for, at værdien kan være under 8496 i 95 % af tilfældene og 5 % chance for, at den er over 10507,37

Læs mere:

Ting at huske

Regressionsanalysemetoden vurderer udelukkende forholdet mellem de undersøgte variabler. Den fastslår ikke årsagssammenhængen. På andre måder er det kun korrelationsaspektet, der tages i betragtning. Når en handling forårsager noget, er det årsagssammenhæng. Når en ændring af en variabel skaber ændringer, kan det betragtes som årsagssammenhæng.

Regressionsanalyser er stærkt hæmmet af outliers. Alle former for outliers skal fjernes, før analysen udføres. For at analysere og fortolke regressionsanalyseresultater i Excel skal du overveje disse punkter.

Konklusion

For at opsummere det hele, besvares spørgsmålet "hvordan man fortolker regressionsresultater i Excel" ved at analysere og senere fortolke dem grundigt. Analysen udføres ved hjælp af Analyse af data værktøj i Data fanebladet.

Til denne opgave kan du downloade en arbejdsbog, hvor du kan øve dig i regressionsanalyse og fortolke den.

Du er velkommen til at stille spørgsmål eller give feedback i kommentarfeltet. Ethvert forslag til forbedring af Exceldemy Fællesskabet vil være meget værdsat.

Hugh West er en meget erfaren Excel-træner og analytiker med over 10 års erfaring i branchen. Han har en bachelorgrad i regnskab og finans og en kandidatgrad i Business Administration. Hugh har en passion for undervisning og har udviklet en unik undervisningstilgang, der er nem at følge og forstå. Hans ekspertviden om Excel har hjulpet tusindvis af studerende og fagfolk verden over med at forbedre deres færdigheder og udmærke sig i deres karriere. Gennem sin blog deler Hugh sin viden med verden og tilbyder gratis Excel-tutorials og onlinetræning for at hjælpe enkeltpersoner og virksomheder med at nå deres fulde potentiale.