Regressieresultaten interpreteren in Excel (gedetailleerde analyse)

  • Deel Dit
Hugh West

Regressieanalyse zit in bijna elk type statistische software zoals SPSS , R, en niet te vergeten Excel. Regressie kan ons het grote beeld geven van relaties tussen variabelen. Lineaire regressie kan vrij snel worden gedaan in Excel met behulp van de Gegevensanalyse Dit artikel laat zien hoe je regressieresultaten interpreteren in Excel.

Download Praktijk Werkboek

Download dit oefenwerkboek hieronder.

Regressieresultaten interpreteren.xlsx

Wat is regressie?

Regressieanalyse wordt vaak gebruikt bij gegevensanalyse om de verbanden tussen meerdere variabelen te bepalen. Met regressieanalyse kunt u bepalen wat er met de afhankelijke variabele gebeurt als een van de onafhankelijke variabelen verandert. Ook kunt u hiermee wiskundig nagaan welke onafhankelijke variabelen van invloed zijn.

Eenvoudige lineaire regressie is verschillend van een meervoudige lineaire regressie in de statistiek. Met behulp van een lineaire functie, eenvoudige lineaire regressieanalyses het verband tussen de variabelen en één onafhankelijke variabele. Meervoudige lineaire regressie is wanneer twee of meer verklarende factoren worden gebruikt om de variabelen te bepalen. Het gebruik van niet-lineaire regressie in plaats van de afhankelijke variabele wordt beschreven als een niet-lineaire functie omdat de gegevensrelaties niet lineair zijn. Dit artikel zal zich concentreren op meervoudige lineaire regressie om te laten zien hoe je regressieresultaten interpreteren in Excel.

Regressie uitvoeren in Excel

Voor regressiedoeleinden zullen wij de onderstaande dataset gebruiken voor de analyse. De onafhankelijke variabele is hier de Prijs kolom en Verkocht kolom. onafhankelijk kolom zal de Vraag column.

Stappen

  • We moeten naar de Gegevens tabblad en klik op de Gegevensanalyse om regressie te doen .

  • Er verschijnt een nieuw venster; selecteer het gegevensbereik van de afhankelijke variabele en de onafhankelijke variabele.
  • Vink dan de Labels doos en Vertrouwen doos.
  • Klik dan op het vakje uitvoercelbereik om het adres van de uitvoercel te selecteren
  • Vink vervolgens de Resterend om de residuen te berekenen.
  • Vink daarna de Resterend percelen en Line Fit Plots dozen
  • Klik op OK hierna.

  • Na het klikken op OK, de primaire uitvoerparameters van de analyse zullen bij de opgegeven cellen liggen.

  • Dan krijgt u ook enkele parameters zoals Betekenis waarde enz. in de ANOVA ( Analyse van de variantie ) tabel.
  • Hier, df staat voor de vrijheidsgraad in verband met de bron van de variantie.
  • SS geeft de som van de kwadraten aan. Uw model zal de gegevens beter weergeven als de Resterend SS is kleiner dan de Totaal SS.
  • MS betekent vierkant.
  • F geeft de F -test voor de nulhypothese.
  • Betekenis F geeft de P -waarde van F .

  • Dan krijgt u ook de coëfficiënten van de variabele, de significantiewaarde, enz. in een tabel.

  • Dan krijgt u een definitieve tabel onder de coëfficiëntentabel met de restwaarde voor elke invoer.

  • Vervolgens krijgt u de Vraag vs Prijs regressiegrafiek, met een trendlijn.

  • Hierna krijg je de Vraag vs Verkocht regressiegrafiek met een trendlijn.

  • Er is nog een grafiek met de verdeling van de residuen van elk item van de Verkocht variabel.

  • Er is nog een grafiek met de verdeling van de residuen van elk item van de Prijs variabel.

Vervolgens laten we zien hoe u deze regressieresultaten in Excel kunt interpreteren.

Lees meer: Logistische regressie in Excel (met snelle stappen)

Regressieresultaten interpreteren in Excel

Het volgende wat u moet doen na het uitvoeren van de regressieanalyse en deze interpreteren. De uitkomsten worden hieronder beschreven en uitgewerkt.

Meervoudige R-kwadraat regressiewaarde analyse

De R-kwadraat getal geeft aan hoe dicht de elementen van de dataset bij elkaar liggen en hoe goed de regressielijn bij de gegevens past. We gaan de meervoudige lineaire regressieanalyse gebruiken, waarbij we het effect van twee of meer variabelen op de hoofdfactor gaan bepalen. Hiermee wordt bedoeld hoe de afhankelijke variabele verandert als een van de onafhankelijke variabelen verandert. Het bereik van deze coëfficiënt is van-1 tot 1. Hier,

  • 1 betekent een nauwe positieve relatie
  • 0 betekent dat er geen relaties zijn tussen de variabelen. Met andere woorden, de datapunten zijn willekeurig.
  • -1 betekent omgekeerde of negatieve relatie tussen variabelen.

In de hierboven getoonde uitvoerresultaten is de meervoudige R-waarde van de gegeven datasets o.7578( ongeveer ), wat wijst op sterke relaties tussen de variabelen.

R kwadraat

R kwadraat In ons geval is de waarde 0,574 (ongeveer), wat kan worden geïnterpreteerd als een redelijk goed verband tussen de variabelen.

Aangepaste R-kwadraat

Dit is slechts een alternatieve versie van de R kwadraat waarde. Dit schuift gewoon de predictor variabelen bij het voorspellen van de antwoord variabele. Het berekent als

R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]

Hier, R^2 : De R^2 waarde die we uit de dataset hebben gehaald.

n : het aantal waarnemingen.

K : het aantal voorspellende variabelen.

Het belang van deze waarde blijkt uit de regressieanalyse tussen twee predictor variabelen. Als er meer dan één predictor variabele in de dataset, dan wordt de R-kwadraatwaarde opgeblazen, wat zeer ongewenst is. De aangepaste R kwadraat waarde corrigeert deze inflatie en geeft een nauwkeurig beeld van de variabelen.

Standaardfout

Een andere goodness-of-fit metriek die de nauwkeurigheid van uw regressieanalyse aangeeft; hoe lager de waarde, hoe zekerder u kunt zijn in uw regressieanalyse.

Standaardfout is een empirische metriek die de gemiddelde afstand weergeeft waarover de punten van de trendlijn afwijken. Daarentegen, R2 staat voor het aandeel van de variatie in de afhankelijke variabele. In dit geval is de waarde van Standaardfout is 288,9 ( ongeveer ), wat betekent dat onze datapunten gemiddeld 288,9 van de trendlijn afwijken.

Opmerkingen

Geef het aantal waarnemingen of vermeldingen aan.

Bepaal significante variabele

De Significantiewaarde geeft de betrouwbaarheid (statistisch verantwoord) van onze analyse aan. Met andere woorden, het geeft aan hoe groot de kans is dat onze dataset fout is. Deze waarde zou lager moeten zijn dan 5%. Maar in dit geval is onze significantiewaarde 0,00117, wat neerkomt op 0,1%, dus ruim onder de 5%. Onze analyse is dus in orde. Anders moeten we misschien andere variabelen kiezen voor onze analyse.

P-waarde in regressieanalyse

Nauw verbonden met een significante waarde, de P-waarde geeft de kans aan dat de coëfficiëntwaarde fout is. P-waarde geeft de associatie aan van de nulhypothese met de variabelen.

Als uw p-waarde <de Betekenis getal, is er voldoende bewijs om de nulhypothese te verwerpen. Dit betekent dat er een niet-nulcorrelatie is tussen de variabelen.

Maar als de p-waarde > Betekenis waarde, zal er onvoldoende bewijs zijn om de nulhypothese te verwerpen. Dat betekent dat er geen correlatie tussen de variabelen zou kunnen bestaan.

In of geval, de P-waarde van variabele Prijs =0,000948 <0,00117 (significantiewaarde),

Er is hier dus geen sprake van een nulhypothese, en er is genoeg bewijs om een correlatie tussen variabelen vast te stellen.

Voor de variabele Verkocht , de (P-waarde) 0,0038515 <0,0011723 (Significantiewaarde)

Er zou hier dus sprake kunnen zijn van een nulhypothese, en er is niet genoeg bewijs om een niet-nul correlatie tussen variabelen vast te stellen.

In de meeste gevallen bepaalt deze P-waarde of een variabele al dan niet in de dataset wordt opgenomen. We moeten bijvoorbeeld de Verkocht variabele om de robuustheid van de dataset te behouden.

Regressievergelijking

Aangezien we de lineaire regressieanalyse in Excel bepalen, moet de trendlijn ook lineair zijn. De algemene vorm is:

Y=mX+C.

Hier, Y is de afhankelijke variabele.

En X is hier de onafhankelijke variabele, wat betekent dat we het effect van de verandering van variabele x op variabele Y zullen bepalen.

C gewoon de waarde van het Y-as snijpunt van de lijn.

In dit geval is de waarde van het C-intercept gelijk aan 9502,109853

En de waarde van m voor de twee variabelen is -809,265 en 0,424818.

Zo hebben we de uiteindelijke vergelijking voor de twee afzonderlijke variabelen.

De eerste is:

Y=-809.265771X+9502.12

En de vergelijking voor de tweede variabele is:

Y=0.4248X+9502.12

Coëfficiënten

De verkregen coëfficiënten zijn m1=-809.2655 en m2=04248 En onderschepper, C= 9502.12 .

  • Ten eerste geeft de interceptiewaarde aan dat de vraag 9502 zal zijn wanneer de prijs nul is.
  • En de waarden van m De prijscoëfficiëntwaarde is -809,265, wat betekent dat een prijsverhoging per eenheid de vraag met ongeveer 809 eenheden doet afnemen.
  • Voor de tweede variabele, Verkocht, is de m-waarde 0,424. Dit betekent dat de verandering per verkochte eenheid zal leiden tot een stijging van het product met 0424 eenheden.

Residuen

De Resterend is het verschil tussen de oorspronkelijke en de berekende invoer van de regressielijn. Residuen geven aan hoe ver de werkelijke waarde verwijderd is van de lijn. Bijvoorbeeld, de berekende waarde van de regressieanalyse voor de eerste invoer is 9497. En de eerste oorspronkelijke waarde is 9500. Dus de restwaarde is ongeveer 2,109.

T-statistiek Waarde

De T-staticawaarde is de deling van de coëfficiënt door de standaardwaarde. Hoe hoger de waarde is, hoe beter de betrouwbaarheid van de coëfficiënt aangeeft.

Er is nog een andere betekenis van deze waarde, die nodig is om bereken de P-waarde.

Het 95% betrouwbaarheidsinterval

Hier is de betrouwbaarheid van de variabele ingesteld op 95. Die kan echter veranderen.

  • Hier wordt de coëfficiëntwaarde van de onderste 95% berekend als 8496,84 betekent dat de bovenste 95% wordt berekend als 10507,37,
  • Dit betekent dat, hoewel onze hoofdcoëfficiënt ongeveer 9502,1 bedraagt, er een grote kans bestaat dat de waarde in 95% van de gevallen lager is dan 8496 en een kans van 5% dat hij hoger is dan 10507,37.

Lees meer:

Dingen om te onthouden

De regressiemethode beoordeelt alleen het verband tussen de onderzochte variabelen. Zij stelt geen oorzakelijk verband vast. In andere opzichten wordt alleen het aspect van correlatie in aanmerking genomen. Wanneer een bepaalde handeling iets veroorzaakt, wordt het een oorzakelijk verband. Wanneer een verandering van een variabele veranderingen teweegbrengt, kan het als een oorzakelijk verband worden beschouwd.

Regressieanalyse wordt zwaar gehinderd door uitschieters. Alle soorten uitschieters moeten worden verwijderd voordat de analyse wordt uitgevoerd. Om de resultaten van regressieanalyse in Excel te analyseren en te interpreteren, moet u rekening houden met deze punten.

Conclusie

Kortom, de vraag "hoe regressieresultaten te interpreteren in Excel" wordt beantwoord door ze uitvoerig te analyseren en later te interpreteren. De analyse wordt gedaan door middel van de Gegevensanalyse gereedschap in de Gegevens tab.

Voor dit probleem is een werkboek te downloaden waarin u regressieanalyse kunt oefenen en interpreteren.

Voel je vrij om vragen of feedback te stellen via de commentaar sectie. Elke suggestie voor de verbetering van de Exceldemy gemeenschap zeer op prijs zal worden gesteld.

Hugh West is een zeer ervaren Excel-trainer en -analist met meer dan 10 jaar ervaring in de branche. Hij heeft een bachelor in Accounting en Finance en een master in Business Administration. Hugh heeft een passie voor lesgeven en heeft een unieke lesaanpak ontwikkeld die gemakkelijk te volgen en te begrijpen is. Zijn deskundige kennis van Excel heeft duizenden studenten en professionals over de hele wereld geholpen hun vaardigheden te verbeteren en uit te blinken in hun carrière. Via zijn blog deelt Hugh zijn kennis met de wereld en biedt hij gratis Excel-tutorials en online trainingen aan om individuen en bedrijven te helpen hun volledige potentieel te bereiken.