Indholdsfortegnelse
Regressionsanalyse findes i næsten alle typer statistisk software som f.eks. SPSS , R, og ikke at forglemme Excel. Regression kan give os det store billede af sammenhængen mellem variabler. Lineær regression kan udføres ret hurtigt i Excel ved hjælp af Analyse af data værktøj. Denne artikel viser, hvordan du kan fortolke regressionsresultater i Excel.
Download arbejdsbog til øvelser
Download denne øvelsesarbejdsbog nedenfor.
Fortolke regressionsresultater.xlsxHvad er regression?
Regressionsanalyse bruges ofte i dataanalyse til at bestemme sammenhængen mellem flere variabler. Regressionsanalyse giver dig mulighed for at vælge, hvad der sker med den afhængige variabel, hvis en af de uafhængige variabler ændres. Den giver dig også mulighed for matematisk at finde ud af, hvilke uafhængige variabler der har en indflydelse.
Simpel lineær regression er forskellig fra en multipel lineær regression i statistik. Ved hjælp af en lineær funktion, enkle lineære regressionsanalyser sammenhængen mellem variablerne og en uafhængig variabel. Multipel lineær regression er, når to eller flere forklarende faktorer anvendes til at bestemme variablerne. Ved at anvende ikke-lineær regression i stedet for den afhængige variabel betegnes det som en ikke-lineær funktion, da dataforholdene ikke er lineære. Denne artikel vil koncentrere sig om multipel lineær regression for at vise, hvordan du kan fortolke regressionsresultater i Excel.
Trin til at lave regression i Excel
Til regressionsformål vil vi bruge nedenstående datasæt til analyseformål. Her vil den uafhængige variabel være den Pris kolonne og Sælges kolonne. uafhængig kolonnen vil være den Efterspørgsel kolonne.
Trin
- Vi er nødt til at gå til Data og klik på fanen Analyse af data at foretage regression .
- Der kommer et nyt vindue frem; vælg den afhængige variabel og det uafhængige variabelt dataramme.
- Derefter afkrydser du Etiketter boks og Tillid boks.
- Klik derefter på boksen for outputcelleområdet for at vælge outputcelleadressen
- Herefter skal du sætte kryds ved Resterende til beregning af residualerne.
- Herefter skal du krydse af i Resterende parceller og Kasser med line fit-plots
- Klik på OK efter dette.
- Når du har klikket på OK, de primære udgangsparametre for analysen vil være på de angivne celler.
- Derefter får du også nogle parametre som f.eks. Betydning værdi osv. i den ANOVA ( Analyse af varians ) tabel.
- Her, df angiver den frihedsgrad, der er knyttet til varianskilden.
- SS angiver summen af kvadrater. Din model vil afspejle dataene bedre, hvis Resterende SS er mindre end den Samlet SS.
- MS betyder firkantet.
- F betegner den F -test for nulhypotesen.
- Betydning F betegner den P -værdi af F .
- Så får du også variablernes koefficienter, signifikansværdi osv. i en tabel.
- Derefter får du en endelig tabel under koefficienttabellen, som indeholder restværdien for hver post.
- Derefter får du den Efterspørgsel vs Pris regressionsdiagram med en trendlinje.
- Herefter får du den Efterspørgsel vs Solgt regressionsdiagram med en trendlinje.
- Der er et andet diagram, der viser fordelingen af residualer for hver post fra den Sælges variabel.
- Der er et andet diagram, der viser fordelingen af residualer for hver post fra den Pris variabel.
Derefter viser vi dig, hvordan du kan fortolke disse regressionsresultater i Excel.
Læs mere: Hvordan man laver logistisk regression i Excel (med hurtige trin)
Sådan fortolker du regressionsresultater i Excel
Det næste, du skal gøre efter at have foretaget regressionsanalysen, er at fortolke dem. Resultaterne er beskrevet og uddybet nedenfor.
Analyse af regressionsværdi med flere R-kvadratværdier
R-kvadrat tallet angiver, hvor tæt datasættets elementer hænger sammen, og hvor godt regressionslinjen passer til dataene. Vi skal bruge den multiple lineære regressionsanalyse, hvor vi skal bestemme to eller flere variablers indvirkning på hovedfaktoren. Det drejer sig om, hvordan den afhængige variabel ændrer sig, når en af de uafhængige variabler ændrer sig. Intervallet for denne koefficient er fra-1 til 1. Her,
- 1 betyder et tæt positivt forhold
- 0 betyder, at der ikke er nogen sammenhæng mellem variablerne, dvs. at datapunkterne er tilfældige.
- -1 betyder omvendt eller negativ sammenhæng mellem variablerne.
I outputresultaterne ovenfor er den multiple R-værdi for de givne datasæt o.7578( ca. ), hvilket indikerer en stærk sammenhæng mellem variablerne.
R kvadreret
R i kvadrat værdien forklarer, hvordan de afhængige variablers respons varierer i forhold til den uafhængige variabel. I vores tilfælde er værdien 0,574(ca.), hvilket kan fortolkes som en rimelig god sammenhæng mellem variablerne.
Justeret R-kvadrat
Dette er blot en alternativ udgave af den R i kvadrat værdi. Dette blander blot prædiktor variabler, mens de forudsiger den svar variabel. Den beregnes som
R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]
Her, R^2 : Den R^2 værdi, vi har fået fra datasættet.
n : antallet af observationer.
K : antallet af prædiktorvariabler.
Betydningen af denne værdi opstår, når man foretager en regressionsanalyse mellem to prædiktor variabler. Hvis der er mere end én prædiktor variabel i datasættet, så vil R-kvadratværdien blive for højt, hvilket er yderst uønsket. Den justerede R i kvadrat værdien justerer denne inflation og giver et nøjagtigt billede af variablerne.
Standardfejl
En anden måleenhed for god tilpasning, der angiver nøjagtigheden af din regressionsanalyse; jo lavere værdien er, jo mere sikker kan du være i din regressionsanalyse.
Standardfejl er en empirisk måleenhed, der repræsenterer den gennemsnitlige afstand, som punkterne afviger fra tendenslinjen. I modsætning hertil, R2 repræsenterer andelen af variationen i den afhængige variabel. I dette tilfælde er værdien af Standardfejl er 288,9 ( ca. ), hvilket viser, at vores datapunkter i gennemsnit falder 288,9 fra tendenslinjen.
Bemærkninger
Angiv antallet af observationer eller poster.
Bestem den signifikante variabel
Signifikansværdi angiver troværdigheden (statistisk forsvarlig) af vores analyse. Med andre ord angiver den sandsynligheden for, at vores datasæt er forkert. Denne værdi bør være under 5 %. Men i dette tilfælde er vores signifikansværdi 0,00117, hvilket svarer til 0,1 %, hvilket er langt under 5 %. Så vores analyse er i orden. Ellers skal vi måske vælge andre variabler til vores analyse.
P-værdi i regressionsanalyse
Tæt knyttet til en betydelig værdi, den P-værdi angiver sandsynligheden for, at koefficientværdien er forkert. P-værdien angiver sammenhængen mellem nulhypotesen og variablerne.
Hvis din p-værdi <den Betydning tal, er der tilstrækkelige beviser til at forkaste nulværdihypotesen. Det betyder, at der er en korrelation mellem variablerne, der ikke er nul.
Men hvis den p-værdi > Betydning værdi, vil der ikke være tilstrækkeligt bevis for at afvise nulhypotesen, hvilket betyder, at der ikke kan være nogen sammenhæng mellem variablerne.
I så fald skal den P-værdi af variabel Pris =0,000948 <0,00117 (signifikansværdi),
Der er altså ikke tale om en nulhypotese her, og der er tilstrækkeligt med beviser til at fastslå en sammenhæng mellem variablerne.
På den anden side, for variablen Solgt , den (P-værdi) 0.0038515 <0.0011723 (Signifikansværdi)
Der kan altså være tale om en nulhypotese, og der er ikke tilstrækkeligt med beviser til at fastslå en korrelation mellem variablerne, der ikke er nul.
I de fleste tilfælde er denne P-værdi afgørende for, om en variabel skal være med i datasættet eller ej. Vi bør f.eks. fjerne Sælges variabel for at bevare datasættets robusthed.
Regressionsligning
Da vi bestemmer den lineære regressionsanalyse i Excel, skal trendlinjen også være lineær. Den generelle form er:
Y=mX+C.
Her, Y er den afhængige variabel.
Og X er den uafhængige variabel her, hvilket betyder, at vi vil bestemme virkningen af ændringen af variabel x på variabel Y.
C vil blot være værdien af Y-aksens skæringspunkt for linjen.
I dette tilfælde er værdien af C-interceptet lig med 9502,109853
Og værdien af m for de to variabler er -809,265 og 0,424818.
Så vi har den endelige ligning for de to separate variabler.
Den første er:
Y=-809.265771X+9502.12Og ligningen for den anden variabel er:
Y=0,4248X+9502,12Koefficienter
De koefficienter, vi fik, er m1=-809.2655 og m2=04248 . og interceptor, C= 9502.12 .
- For det første angiver interceptorværdien, at efterspørgslen vil være 9502, når prisen er nul.
- Og værdierne for m angiver den hastighed, hvormed efterspørgslen ændrer sig pr. enhed prisændring. Priskoefficienten er -809,265, hvilket betyder, at en prisstigning pr. enhed vil reducere efterspørgslen med ca. 809 enheder.
- For den anden variabel, Solgt, er m-værdien 0,424. Det betyder, at ændringen pr. enhed solgt vare vil resultere i en stigning på 0424 gange en enhed af produktet.
Restprodukter
Resterende forskellen mellem den oprindelige og den beregnede indgang fra regressionslinjen er forskellen. Restprodukter angiver, hvor langt den faktiske værdi er fra linjen. F.eks. er den beregnede værdi fra regressionsanalysen for den første post 9497. Og den første oprindelige værdi er 9500. Så restværdien er ca. 2,109.
T-statistik Værdi
T-statikværdien er koefficientens division af standardværdien. Jo højere værdien er, jo større pålidelighed indikerer koefficienten.
Der er en anden betydning af denne værdi, som er nødvendig for at beregne P-værdien.
Det 95 % konfidensinterval
Her er konfidensværdien for variablen, som vi i begyndelsen har sat til 95. Den kan dog ændres.
- Her er koefficientværdien for de nederste 95% beregnet som 8496,84, hvilket betyder, at de øverste 95% er beregnet som 10507,37,
- Det betyder, at selv om vores hovedkoefficient er ca. 9502,1, er der en stor chance for, at værdien kan være under 8496 i 95 % af tilfældene og 5 % chance for, at den er over 10507,37
Læs mere:
Ting at huske
✎ Regressionsanalysemetoden vurderer udelukkende forholdet mellem de undersøgte variabler. Den fastslår ikke årsagssammenhængen. På andre måder er det kun korrelationsaspektet, der tages i betragtning. Når en handling forårsager noget, er det årsagssammenhæng. Når en ændring af en variabel skaber ændringer, kan det betragtes som årsagssammenhæng.
✎ Regressionsanalyser er stærkt hæmmet af outliers. Alle former for outliers skal fjernes, før analysen udføres. For at analysere og fortolke regressionsanalyseresultater i Excel skal du overveje disse punkter.
Konklusion
For at opsummere det hele, besvares spørgsmålet "hvordan man fortolker regressionsresultater i Excel" ved at analysere og senere fortolke dem grundigt. Analysen udføres ved hjælp af Analyse af data værktøj i Data fanebladet.
Til denne opgave kan du downloade en arbejdsbog, hvor du kan øve dig i regressionsanalyse og fortolke den.
Du er velkommen til at stille spørgsmål eller give feedback i kommentarfeltet. Ethvert forslag til forbedring af Exceldemy Fællesskabet vil være meget værdsat.