Innehållsförteckning
Regressionsanalys finns i nästan alla typer av statistiska programvaror, t.ex. SPSS , R, och för att inte tala om Excel. Regression kan ge oss en helhetsbild av sambanden mellan variabler. Linjär regression kan göras ganska snabbt i Excel med hjälp av Analys av data verktyg. Den här artikeln visar hur du kan tolka regressionsresultat i Excel.
Ladda ner övningsboken
Ladda ner arbetsboken nedan.
Tolka regressionsresultat.xlsxVad är regression?
Regressionsanalys används ofta i dataanalyser för att fastställa sambanden mellan flera variabler. Med hjälp av regressionsanalys kan du välja vad som händer med den beroende variabeln om en av de oberoende variablerna förändras. Du kan också matematiskt räkna ut vilka oberoende variabler som har en påverkan.
Enkel linjär regression skiljer sig från en multipel linjär regression i statistiken. Med hjälp av en linjär funktion, enkla Analyser av linjär regression. sambandet mellan variablerna och en oberoende variabel. Multipel linjär regression är när två eller flera förklaringsfaktorer används för att bestämma variablerna. Om man använder icke-linjär regression i stället för den beroende variabeln beskrivs den som en icke-linjär funktion eftersom dataförhållandena inte är linjära. Denna artikel kommer att koncentrera sig på multipel linjär regression för att visa hur du kan tolka regressionsresultat i Excel.
Steg för att göra regression i Excel
För regressionsändamål kommer vi att använda nedanstående dataset för analys. Här kommer den oberoende variabeln att vara Pris kolumnen och Såld kolumn. oberoende kolumnen kommer att vara den Efterfrågan kolumn.
Steg
- Vi måste gå till Uppgifter och klicka på fliken Analys av data att göra regression .
- Ett nytt fönster öppnas; välj datavärden för den beroende variabeln och den oberoende variabeln.
- Kryssa sedan för Etiketter box och Förtroende box.
- Klicka sedan på rutan för utdatacellintervallet för att välja utdatacelladress.
- Därefter kryssar du i Återstående för att beräkna residualerna.
- Därefter kryssar du i Återstående tomter och Rutor för linjeanpassningsplaner
- Klicka på OK efter detta.
- Efter att ha klickat på OKEJ, de primära utgångsparametrarna för analysen kommer att ligga i de angivna cellerna.
- Då får du också några parametrar, t.ex. Betydelse värde etc. i ANOVA ( Analys av varians ).
- Här, df betecknar den frihetsgrad som är relaterad till varianskällan.
- SS betecknar summan av kvadraterna. Din modell kommer att återspegla data bättre om Återstående SS är mindre än den Totalt SS.
- MS betyder fyrkantig.
- F betecknar den F -test för nollhypotesen.
- Signifikans F betecknar den P -värde av F .
- Då får du också variabelns koefficienter, signifikansvärde osv. i en tabell.
- Därefter får du en sista tabell under koefficienttabellen som innehåller restvärdet för varje post.
- Därefter kommer du att få Efterfrågan vs Pris regressionsdiagram, med en trendlinje.
- Efter detta får du Efterfrågan vs Såld regressionsdiagram med en trendlinje.
- Det finns ett annat diagram som visar fördelningen av residualerna för varje post från Såld variabel.
- Det finns ett annat diagram som visar fördelningen av residualerna för varje post från Pris variabel.
Därefter visar vi hur du kan tolka dessa regressionsresultat i Excel.
Läs mer: Hur man gör logistisk regression i Excel (med snabba steg)
Hur man tolkar regressionsresultat i Excel
Nästa sak du behöver göra efter att ha gjort regressionsanalysen och tolka dem är att beskriva och utveckla resultaten nedan.
Analys av regressionsvärdet med flera R-kvadratvärden
R-kvadrat anger hur nära datamängdens element är relaterade och hur väl regressionslinjen stämmer överens med uppgifterna. Vi kommer att använda oss av den multipla linjära regressionsanalysen, där vi kommer att fastställa hur två eller flera variabler påverkar huvudfaktorn. Detta avser hur den beroende variabeln förändras när en av de oberoende variablerna förändras. Intervallet för denna koefficient är från-1 till 1. Här,
- 1 innebär ett nära och positivt förhållande.
- 0 betyder att det inte finns något samband mellan variablerna, med andra ord är datapunkterna slumpmässiga.
- -1 betyder omvänt eller negativt förhållande mellan variablerna.
I resultaten som visas ovan är det multipla R-värdet för de givna datamängderna o.7578( ca ), vilket tyder på starka samband mellan variablerna.
R Kvadrat
R i kvadrat I vårt fall är värdet 0,574 (ungefär), vilket kan tolkas som att förhållandet mellan variablerna är ganska bra.
Justerat R-kvadrat
Detta är bara en alternativ version av den R i kvadrat värde. Detta innebär att man helt enkelt blandar ihop prediktor variabler när man prognostiserar den svar variabeln. Den beräknas som
R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]
Här, R^2 : Den R^2 värde som vi fick från datasetet.
n : antalet observationer.
K : antalet prediktionsvariabler.
Betydelsen av detta värde uppstår när man gör en regressionsanalys mellan två prediktor variabler. Om det finns mer än en prediktor variabel i datasetet, kommer R-kvadratvärdet att bli för högt, vilket är högst oönskat. Det justerade R i kvadrat värdet justerar denna inflation och ger en korrekt bild av variablerna.
Standardfel
Ett annat mått på god överensstämmelse som visar hur noggrann regressionsanalysen är. Ju lägre värde, desto säkrare kan du vara i din regressionsanalys.
Standardfel är ett empiriskt mått som representerar det genomsnittliga avståndet som punkterna avviker från trendlinjen, R2 representerar andelen variation av den beroende variabeln. I detta fall är värdet på Standardfel är 288,9 ( ca ), vilket innebär att våra datapunkter i genomsnitt avviker 288,9 från trendlinjen.
Observationer
Ange antalet observationer eller poster.
Bestäm signifikant variabel
Signifikansvärde anger hur tillförlitlig (statistiskt tillförlitlig) vår analys är. Med andra ord anger det sannolikheten för att vårt dataset är felaktigt. Detta värde bör ligga under 5 %. Men i det här fallet är vårt signifikansvärde 0,00117, vilket motsvarar 0,1 %, vilket är långt under 5 %. Vår analys är alltså okej. I annat fall kan vi behöva välja andra variabler för vår analys.
P-värde i regressionsanalysen
Nära kopplat till ett betydande värde, den P-värde anger sannolikheten för att koefficientvärdet är fel. P-värdet anger sambandet mellan nollhypotesen och variablerna.
Om din p-värde <den Betydelse Om man ser att det finns en korrelation mellan variablerna som inte är noll, finns det tillräckligt med bevis för att förkasta hypotesen om nollvärdet, vilket innebär att det finns en korrelation mellan variablerna som inte är noll.
Men om den p-värde > Betydelse Om värdet är mindre än 0, finns det inte tillräckligt med bevis för att förkasta nollhypotesen, vilket innebär att det inte kan finnas något samband mellan variablerna.
I sådana fall kan P-värde av variabeln Pris =0,000948 <0,00117 (signifikansvärde),
Det finns alltså ingen nollhypotes här, och det finns tillräckligt med bevis för att förklara att det finns ett samband mellan variablerna.
Å andra sidan, för variabeln Såld , (P-värde) 0.0038515 <0.0011723 (Signifikansvärde)
Det kan alltså vara fråga om en nollhypotes, och det finns inte tillräckligt med bevis för att förklara att det finns en korrelation mellan variablerna som inte är noll.
I de flesta fall avgör detta P-värde om en variabel ska finnas med i datasetet eller inte. Vi bör till exempel ta bort variabeln Såld variabeln för att bevara datasetets robusthet.
Regressionsekvation
När vi fastställer den linjära regressionsanalysen i Excel ska trendlinjen också vara linjär. Den allmänna formen är:
Y=mX+C.
Här, Y är den beroende variabeln.
Och X är den oberoende variabeln här, vilket innebär att vi ska fastställa effekten av förändringen av variabeln x på variabeln Y.
C blir bara värdet av Y-axelns skärningspunkt för linjen.
I detta fall är värdet av C-interceptet lika med 9502,109853.
Och värdet av m för de två variablerna är -809,265 och 0,424818.
Vi har alltså den slutliga ekvationen för de två separata variablerna.
Den första är:
Y=-809.265771X+9502.12Ekvationen för den andra variabeln är:
Y=0,4248X+9502,12Koefficienter
De koefficienter vi fick fram är m1=-809.2655 och m2=04248 . och interceptor, C= 9502.12 .
- För det första visar interceptorvärdet att efterfrågan kommer att vara 9502 när priset är noll.
- Och värdena för m anger hur snabbt efterfrågan förändras per enhet prisförändring. Värdet för priskoefficienten är -809,265, vilket innebär att en ökning av priset per enhet minskar efterfrågan med ungefär 809 enheter.
- För den andra variabeln, Såld, är m-värdet 0,424. Detta innebär att förändringen per såld enhet kommer att resultera i en ökning av produkten med 0424 tidsenheter.
Restprodukter
Återstående Skillnaden mellan den ursprungliga och den beräknade posten från regressionslinjen är skillnaden. Restprodukter anger hur långt det faktiska värdet är från linjen. Till exempel är det beräknade värdet från regressionsanalysen för det första värdet 9497. Och det första ursprungliga värdet är 9500. Residualvärdet är alltså ungefär 2,109.
T-statistik Värde
T-statiskt värde är koefficientens delning av standardvärdet. Ju högre värdet är, desto bättre tillförlitlighet indikerar koefficienten.
Det finns en annan betydelse av detta värde, som krävs för att beräkna P-värdet.
95 % konfidensintervall
Här är konfidensen för variabeln 95 i början, men den kan ändras.
- Här beräknas koefficientvärdet för de nedre 95 % till 8496,84 och för de övre 95 % till 10507,37,
- Detta innebär att även om vår huvudkoefficient är omkring 9502,1 finns det en stor chans att värdet kan vara lägre än 8496 i 95 % av fallen och en chans på 5 % att det är högre än 10507,37.
Läs mer:
Saker att komma ihåg
✎ Regressionsanalysmetoden bedömer endast sambandet mellan de variabler som undersöks. Den fastställer inte orsakssamband. På andra sätt beaktas endast korrelationsaspekten. När en handling orsakar något blir det orsakssamband. När en förändring av en variabel skapar förändringar kan det betraktas som orsakssamband.
✎ Regressionsanalysen försvåras kraftigt av outliers. Alla typer av outliers måste tas bort innan analysen utförs. För att analysera och tolka resultaten av regressionsanalysen i Excel måste du ta hänsyn till dessa punkter.
Slutsats
Sammanfattningsvis besvaras frågan "hur man tolkar regressionsresultat i Excel" genom att analysera och senare tolka dem. Analysen görs med hjälp av Analys av data verktyg i Uppgifter fliken.
För det här problemet finns en arbetsbok att ladda ner där du kan öva på regressionsanalys och tolka den.
Du får gärna ställa frågor eller ge feedback i kommentarsfältet. Alla förslag för att förbättra Excellent samhället kommer att vara mycket uppskattat.