Inhaltsverzeichnis
Die Regressionsanalyse ist in fast jeder Art von Statistiksoftware wie SPSS , R, und nicht zu vergessen Excel. Die Regression kann uns ein umfassendes Bild über die Beziehungen zwischen den Variablen vermitteln. Eine lineare Regression kann in Excel ziemlich schnell durchgeführt werden, indem man die Datenanalyse In diesem Artikel wird gezeigt, wie Sie Regressionsergebnisse in Excel zu interpretieren.
Download Arbeitsbuch Praxis
Laden Sie dieses Übungsheft unten herunter.
Regressionsergebnisse interpretieren.xlsxWas ist Regression?
Die Regressionsanalyse wird häufig in der Datenanalyse verwendet, um die Zusammenhänge zwischen mehreren Variablen zu ermitteln. Mit der Regressionsanalyse kann man bestimmen, was mit der abhängigen Variable passiert, wenn sich eine der unabhängigen Variablen ändert. Außerdem kann man damit mathematisch ermitteln, welche unabhängigen Variablen einen Einfluss haben.
Einfache lineare Regression ist verschieden von a multiple lineare Regression Mit Hilfe einer linearen Funktion, einfachen lineare Regressionsanalysen den Zusammenhang zwischen den Variablen und einer unabhängigen Variablen. Multiple lineare Regression ist, wenn zwei oder mehr erklärende Faktoren zur Bestimmung der Variablen verwendet werden. Die Verwendung einer nichtlinearen Regression anstelle der abhängigen Variable wird als nichtlineare Funktion bezeichnet, da die Datenbeziehungen nicht linear sind. Dieser Artikel konzentriert sich auf multiple lineare Regression um zu zeigen, wie Sie Regressionsergebnisse in Excel zu interpretieren.
Schritte zur Durchführung einer Regression in Excel
Zu Regressionszwecken werden wir den nachstehenden Datensatz für die Analyse verwenden, wobei die unabhängige Variable die Preis Spalte und Verkauft Spalte: Die unabhängig wird die Spalte Nachfrage Spalte.
Schritte
- Wir müssen zum Daten und klicken Sie auf die Registerkarte Datenanalyse Regression durchführen .
- Es öffnet sich ein neues Fenster; wählen Sie den Datenbereich für die abhängige und die unabhängige Variable aus.
- Dann kreuzen Sie das Etiketten Box und Vertrauen Box.
- Klicken Sie dann auf das Feld Ausgabezellenbereich, um die Adresse der Ausgabezelle auszuwählen.
- Als nächstes kreuzen Sie das Feld Restbetrag um die Residuen zu berechnen.
- Danach kreuzen Sie das Feld Restbetrag Grundstücke und Line Fit Plots Boxen
- Klicken Sie auf OK danach.
- Nach dem Anklicken von GUT, werden die primären Ausgabeparameter der Analyse an den angegebenen Zellen liegen.
- Dann erhalten Sie auch einige Parameter wie Bedeutung Wert usw. in der ANOVA ( Analyse der Varianz ) Tabelle.
- Hier, df bezeichnet den Freiheitsgrad in Bezug auf die Varianzquelle.
- SS bezeichnet die Summe der Quadrate. Ihr Modell wird die Daten besser widerspiegeln, wenn die Restbetrag SS ist kleiner als die SS insgesamt.
- MS bedeutet Quadrat.
- F kennzeichnet die F -Test für die Nullhypothese.
- Signifikanz F bezeichnet die P -Wert von F .
- Sie erhalten dann auch die Koeffizienten der Variablen, den Signifikanzwert usw. in einer Tabelle.
- Dann erhalten Sie eine letzte Tabelle unterhalb der Koeffiziententabelle, die den Restwert für jeden Eintrag enthält.
- Als nächstes erhalten Sie die Nachfrage gegen Preis Regressionsdiagramm, mit einer Trendlinie.
- Danach erhalten Sie die Nachfrage gegen Verkauft Regressionsdiagramm mit einer Trendlinie.
- Ein weiteres Diagramm zeigt die Verteilung der Residuen der einzelnen Einträge aus der Verkauft variabel.
- Ein weiteres Diagramm zeigt die Verteilung der Residuen der einzelnen Einträge aus der Preis variabel.
Als Nächstes werden wir Ihnen zeigen, wie Sie diese Regressionsergebnisse in Excel interpretieren können.
Lesen Sie mehr: Wie man eine logistische Regression in Excel durchführt (mit schnellen Schritten)
Interpretation von Regressionsergebnissen in Excel
Als Nächstes müssen Sie die Ergebnisse der Regressionsanalyse interpretieren. Die Ergebnisse werden im Folgenden beschrieben und näher erläutert.
Analyse der multiplen R-Quadrat-Regressionswerte
Die R-Quadrat gibt an, wie eng die Elemente des Datensatzes zusammenhängen und wie gut die Regressionslinie mit den Daten übereinstimmt. Wir werden die multiple lineare Regressionsanalyse verwenden, bei der wir die Auswirkungen von zwei oder mehr Variablen auf den Hauptfaktor bestimmen. Dies bezieht sich darauf, wie sich die abhängige Variable ändert, wenn sich eine der unabhängigen Variablen ändert. Der Bereich dieses Koeffizienten liegt zwischen-1 bis 1. Hier,
- 1 bedeutet eine enge positive Beziehung
- 0 bedeutet, dass es keine Beziehungen zwischen den Variablen gibt, d. h. die Datenpunkte sind zufällig.
- -1 bedeutet eine umgekehrte oder negative Beziehung zwischen den Variablen.
In den oben gezeigten Ausgabeergebnissen beträgt der multiple R-Wert der gegebenen Datensätze o,7578( ca. ), was auf starke Beziehungen zwischen den Variablen hinweist.
R-Quadrat
R-Quadrat Wert erklärt, wie die Reaktion der abhängigen Variablen auf die unabhängige Variable variiert. In unserem Fall liegt der Wert bei 0,574 (ca.), was als einigermaßen gute Beziehung zwischen den Variablen interpretiert werden kann.
Bereinigtes R-Quadrat
Dies ist lediglich eine alternative Version der R-Quadrat Damit werden die Werte einfach umgeschichtet. Prädiktor Variablen bei der Vorhersage der Antwort Sie berechnet sich als
R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]
Hier, R^2 : Die R^2 Wert, den wir aus dem Datensatz erhalten haben.
n : die Anzahl der Beobachtungen.
K : die Anzahl der Prädiktorvariablen.
Die Bedeutung dieses Wertes ergibt sich bei der Regressionsanalyse zwischen zwei Prädiktor Wenn es mehr als eine Variable gibt. Prädiktor Variable im Datensatz, dann wird der R-Quadrat-Wert aufgebläht, was höchst unerwünscht ist. Der bereinigte R-Quadrat Wert gleicht diese Inflation aus und vermittelt ein genaues Bild der Variablen.
Standardfehler
Eine weitere Anpassungsgüte-Kennzahl, die die Genauigkeit Ihrer Regressionsanalyse angibt; je niedriger der Wert, desto sicherer können Sie sich bei Ihrer Regressionsanalyse sein.
Standardfehler ist eine empirische Metrik, die die durchschnittliche Abweichung der Punkte von der Trendlinie angibt, R2 stellt den Anteil der abhängigen Variable an der Variation dar. In diesem Fall ist der Wert von Standardfehler beträgt 288,9 ( ca. ), was bedeutet, dass unsere Datenpunkte im Durchschnitt um 288,9 von der Trendlinie abweichen.
Beobachtungen
Geben Sie die Anzahl der Beobachtungen oder Einträge an.
Signifikante Variable bestimmen
Die Signifikanzwert gibt die Vertrauenswürdigkeit (statistisch fundiert) unserer Analyse an. Mit anderen Worten, er gibt die Wahrscheinlichkeit an, dass unser Datensatz falsch ist. Dieser Wert sollte unter 5 % liegen. In diesem Fall liegt unser Signifikanzwert jedoch bei 0,00117, was 0,1 % entspricht, also deutlich unter den 5 %. Unsere Analyse ist also in Ordnung. Andernfalls müssen wir möglicherweise andere Variablen für unsere Analyse wählen.
P-Wert in der Regressionsanalyse
Eng verbunden mit einem signifikanten Wert, dem P-Wert bezeichnet die Wahrscheinlichkeit, dass der Koeffizientenwert falsch ist. Der P-Wert gibt die Assoziation der Nullhypothese mit den Variablen an.
Wenn Ihr p-Wert <die Bedeutung Zahl gibt es genügend Anhaltspunkte, um die Nullwert-Hypothese zu verwerfen, d. h. es besteht eine Korrelation zwischen den Variablen, die nicht Null ist.
Aber wenn die p-Wert > Bedeutung Wertes gibt es keine ausreichenden Beweise, um die Nullhypothese zu verwerfen. Das bedeutet, dass es keine Korrelation zwischen den Variablen geben kann.
In diesem Fall ist die P-Wert der Variablen Preis =0,000948 <0,00117 (Signifikanzwert),
Es handelt sich also nicht um eine Nullhypothese, und es gibt genügend Beweise, um eine Korrelation zwischen den Variablen festzustellen.
Andererseits ist für die Variable Verkauft der (P-Wert) 0,0038515 <0,0011723 (Signifikanzwert)
Es könnte sich also um eine Nullhypothese handeln, und es gibt nicht genügend Beweise, um eine Korrelation zwischen den Variablen festzustellen, die nicht null ist.
In den meisten Fällen bestimmt dieser P-Wert, ob eine Variable in den Datensatz aufgenommen wird oder nicht. Zum Beispiel sollten wir die Variable Verkauft Variable, um die Robustheit des Datensatzes zu erhalten.
Regressionsgleichung
Da wir die lineare Regressionsanalyse in Excel bestimmen, sollte auch die Trendlinie linear sein. Die allgemeine Form ist:
Y=mX+C.
Hier, Y ist die abhängige Variable.
Und X ist hier die unabhängige Variable, was bedeutet, dass wir die Auswirkung der Veränderung von Variable x auf Variable Y bestimmen werden.
C ist einfach der Wert des Y-Achsenschnittpunkts der Linie.
In diesem Fall ist der Wert des C-Abschnitts gleich 9502,109853
Und der Wert von m für die beiden Variablen ist -809,265 und 0,424818.
Damit haben wir die endgültige Gleichung für die beiden getrennten Variablen.
Die erste ist:
Y=-809.265771X+9502.12Und die Gleichung für die zweite Variable lautet:
Y=0,4248X+9502,12Koeffizienten
Die Koeffizienten lauten m1=-809.2655 und m2=04248 . und Abfangjäger, C= 9502.12 .
- Erstens gibt der Abfangwert an, dass die Nachfrage 9502 beträgt, wenn der Preis Null ist.
- Und die Werte von m Der Preiskoeffizient beträgt -809,265, was bedeutet, dass eine Preiserhöhung pro Einheit zu einem Rückgang der Nachfrage um etwa 809 Einheiten führt.
- Für die zweite Variable, Verkauft, beträgt der m-Wert 0,424. Dies bedeutet, dass die Veränderung pro verkaufter Einheit zu einem Anstieg des Produkts um eine 0424-fache Einheit führt.
Rückstände
Die Restbetrag Die Differenz zwischen dem ursprünglichen und dem aus der Regressionsgeraden berechneten Eintrag ist die Differenz. Rückstände geben an, wie weit der tatsächliche Wert von der Linie entfernt ist. Der berechnete Eintrag aus der Regressionsanalyse für den ersten Eintrag ist beispielsweise 9497. Der erste Originalwert ist 9500. Das Residuum liegt also bei 2,109.
T-Statistik Wert
Der T-Statistikwert ist die Division des Koeffizienten durch den Standardwert. Je höher der Wert ist, desto größer ist die Zuverlässigkeit des Koeffizienten.
Es gibt eine weitere Bedeutung dieses Wertes, der erforderlich ist, um berechnen Sie den P-Wert.
Das 95%-Konfidenzintervall
Hier haben wir die Konfidenz der Variable zu Beginn auf 95 gesetzt, sie kann sich jedoch ändern.
- Hier wird der Koeffizientenwert der unteren 95 % mit 8496,84 berechnet, während der obere 95 %-Wert mit 10507,37 berechnet wird,
- Das bedeutet, dass, während unser Hauptkoeffizient bei 9502,1 liegt, eine hohe Wahrscheinlichkeit besteht, dass der Wert in 95 % der Fälle unter 8496 liegt und eine 5 %ige Chance besteht, dass er über 10507,37 liegt.
Lesen Sie mehr:
Dinge zum Merken
✎ Die Methode der Regressionsanalyse bewertet lediglich die Beziehung zwischen den untersuchten Variablen. Sie stellt keine Kausalität fest. Auf andere Weise wird nur der Aspekt der Korrelation berücksichtigt. Wenn eine Handlung etwas verursacht, wird sie zur Kausalität. Wenn die Veränderung einer Variable Veränderungen bewirkt, kann sie als Kausalität betrachtet werden.
✎ Die Regressionsanalyse wird durch Ausreißer stark beeinträchtigt. Alle Arten von Ausreißern müssen vor der Analyse entfernt werden. Um die Ergebnisse der Regressionsanalyse in Excel zu analysieren und zu interpretieren, müssen Sie diese Punkte beachten.
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass die Frage, wie man Regressionsergebnisse in Excel interpretiert, durch eine ausführliche Analyse und spätere Interpretation beantwortet wird. Die Analyse erfolgt durch die Datenanalyse Werkzeug im Daten tab.
Für dieses Problem steht eine Arbeitsmappe zum Download bereit, in der Sie die Regressionsanalyse üben und interpretieren können.
Fragen und Anregungen zur Verbesserung der Website können Sie gerne im Kommentarbereich stellen. Exzellent Gemeinschaft sehr zu schätzen wissen werden.