Inhaltsverzeichnis
Einfache Regression Die Analyse wird üblicherweise verwendet, um die Beziehung zwischen zwei Variablen abzuschätzen, z. B. die Beziehung zwischen Ernteerträgen und Niederschlägen oder die Beziehung zwischen dem Geschmack von Brot und der Ofentemperatur. Häufig müssen wir jedoch die Beziehung zwischen einer abhängigen Variablen und zwei oder mehr unabhängigen Variablen untersuchen. Ein Immobilienmakler möchte beispielsweise wissenob und wie Größen wie die Größe des Hauses, die Anzahl der Schlafzimmer und das durchschnittliche Einkommen in der Nachbarschaft mit dem Preis zusammenhängen, zu dem ein Haus verkauft wird. Multiple Regressionsanalyse. Dieser Artikel gibt Ihnen einen Überblick darüber, wie Sie mit Excel eine multiple Regressionsanalyse durchführen können.
Problem
Angenommen, wir nehmen 5 zufällig ausgewählte Verkäufer und sammeln die Informationen wie in der folgenden Tabelle dargestellt: Hat die Ausbildung oder die Motivation einen Einfluss auf den jährlichen Umsatz oder nicht?
Höchstes abgeschlossenes Schuljahr | Motivation, gemessen an der Higgins Motivationsskala | Jahresumsatz in Dollar |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Gleichung
Im Allgemeinen, multiple Regressionsanalyse geht davon aus, dass eine lineare Beziehung zwischen der abhängigen Variable (y) und den unabhängigen Variablen (x1, x2, x3 ... xn) besteht, und diese Art von linearer Beziehung kann mit der folgenden Formel beschrieben werden:
Y = Konstante + β1*x1 + β2*x2+...+ βn*xn
Hier sind die Erklärungen für Konstanten und Koeffizienten:
Y | Der vorhergesagte Wert von Y |
Konstante | Der Y-Achsenabschnitt |
β1 | Die Änderung von Y je 1 Inkrement Änderung von x1 |
β2 | Die Änderung von Y je 1 Inkrement Änderung von x2 |
... | ... |
βn | Die Änderung von Y je 1 Inkrement Änderung von xn |
Konstante und β1, β2... βn können auf der Grundlage der verfügbaren Beispieldaten berechnet werden. Nachdem Sie die Werte für Konstante, β1, β2... βn erhalten haben, können Sie sie für die Vorhersagen verwenden.
Für unser Problem gibt es nur zwei Faktoren, an denen wir interessiert sind, daher lautet die Gleichung:
Jahresumsatz = Konstante + β1*(höchstes abgeschlossenes Schuljahr) + β2*(Motivation, gemessen mit der Higgins Motivationsskala)
Modell einrichten
Der Jahresumsatz, das höchste abgeschlossene Schuljahr und die Motivation wurden in Spalte A, Spalte B und Spalte C eingetragen, wie in Abbildung 1 dargestellt. Es ist besser, die abhängige Variable (hier der Jahresumsatz) immer vor die unabhängigen Variablen zu setzen.
Abbildung 1
Analyse-ToolPak herunterladen
Excel bietet uns die Funktion Datenanalyse, die Werte von Konstanten und Koeffizienten zurückgeben kann. Bevor Sie diese Funktion nutzen können, müssen Sie jedoch das Analysis ToolPak herunterladen. Hier erfahren Sie, wie Sie es installieren können.
Klicken Sie auf das Datei tab -> Optionen und klicken Sie dann auf Add-Ins in Excel-Optionen Klicken Sie auf das Dialogfeld Weiter am unteren Rand von Excel-Optionen Dialogfeld zu öffnen Add-Ins Im Dialogfenster Add-Ins wählen Sie im Dialogfenster Analyse TookPak und klicken Sie dann auf Ok .
Wenn Sie nun auf Daten sehen Sie Datenanalyse erscheint in der Analyse Gruppe (rechtes Feld).
Abbildung 2 [Klicken Sie auf das Bild, um eine vollständige Ansicht zu erhalten]
Mehrfache Regressionsanalyse
Klicken Sie auf Datenanalyse im Analyse Gruppe auf der Daten Tab. auswählen Regression In der angeforderten Datenanalyse Sie können auch andere Aktionen durchführen. statistische Analyse wie t-Test, ANOVA und so weiter.
Abbildung 3.1
A Regression Dialogfeld wird angezeigt, nachdem Sie die Option Regression Füllen Sie das Dialogfeld wie in Abbildung 3.2 gezeigt aus.
Der Eingabebereich Y enthält die abhängige Variable und die Daten, während der Eingabebereich X die unabhängigen Variablen und die Daten enthält. Hier muss ich Sie daran erinnern, dass die unabhängigen Variablen in benachbarten Spalten liegen sollten. Und die maximale Anzahl der unabhängigen Variablen beträgt 15.
Da der Bereich A1: C1 variable Beschriftungen enthält, sollte das Kontrollkästchen Beschriftungen aktiviert werden. Ich empfehle Ihnen, beim Ausfüllen der Bereiche Eingabe Y und Eingabe X jedes Mal Beschriftungen einzufügen. Diese Beschriftungen sind hilfreich, wenn Sie die von Excel zurückgegebenen Zusammenfassungsberichte überprüfen.
Abbildung 3.2
Durch Aktivieren des Kontrollkästchens Residuen können Sie Excel aktivieren, um die Residuen für jede Beobachtung aufzulisten. In Abbildung 1 gibt es insgesamt 5 Beobachtungen, und Sie erhalten 5 Residuen. Das Residuum ist das, was übrig bleibt, wenn Sie den vorhergesagten Wert vom beobachteten Wert subtrahieren. Das standardisierte Residuum ist das Residuum geteilt durch seine Standardabweichung.
Sie können auch das Kontrollkästchen Residualdiagramm aktivieren, damit Excel Residualdiagramme ausgibt. Die Anzahl der Residualdiagramme entspricht der Anzahl der unabhängigen Variablen. Ein Residualdiagramm ist ein Diagramm, das die Residuen auf der Y-Achse und die unabhängigen Variablen auf der X-Achse zeigt. Zufällig verteilte Punkte um die X-Achse in einem Residualdiagramm bedeuten, dass die lineare Regression Abbildung 3.3 zeigt beispielsweise drei typische Muster von Residuenplots. Nur das Muster im linken Feld deutet darauf hin, dass ein lineares Modell geeignet ist. Die beiden anderen Muster deuten darauf hin, dass ein nichtlineares Modell besser geeignet ist.
Abbildung 3.3
Excel gibt ein angepasstes Liniendiagramm zurück, wenn Sie das Kontrollkästchen Linienanpassungsdiagramme aktivieren. Ein angepasstes Liniendiagramm kann die Beziehung zwischen einer abhängigen und einer unabhängigen Variable darstellen. Mit anderen Worten, Excel gibt Ihnen die gleiche Anzahl von angepassten Liniendiagrammen zurück wie die unabhängige Variable. Für unser Problem erhalten Sie beispielsweise 2 angepasste Liniendiagramme.
Ergebnisse
Nachdem Sie auf die Schaltfläche Ok geklickt haben, gibt Excel einen zusammenfassenden Bericht wie unten dargestellt aus. Die grün und gelb hervorgehobenen Zellen sind der wichtigste Teil, dem Sie Ihre Aufmerksamkeit schenken sollten.
Abbildung 3.4
Je höher das R-Quadrat (Zelle F5), desto enger ist die Beziehung zwischen den abhängigen und den unabhängigen Variablen. Und die Koeffizienten (Bereich F17: F19) in der dritten Tabelle geben Ihnen die Werte der Konstanten und der Koeffizienten zurück. Die Gleichung sollte lauten: Jahresumsatz = 1589,2 + 19928,3*(höchstes abgeschlossenes Schuljahr) + 11,9*(Motivation, gemessen mit der Higgins Motivation Scale).
Um jedoch zu sehen, ob die Ergebnisse zuverlässig sind, müssen Sie auch die gelb markierten p-Werte überprüfen. Nur wenn der p-Wert in Zelle J12 kleiner als 0,05 ist, ist die gesamte Regressionsgleichung zuverlässig. Sie müssen aber auch die p-Werte im Bereich I17: I19 überprüfen, um zu sehen, ob die Konstante und die unabhängigen Variablen für die Vorhersage der abhängigen Variable nützlich sind. Für unser Problem ist es besser, wenn wir Folgendes verwerfenMotivation bei der Betrachtung unabhängiger Variablen.
Lesen Sie mehr: Wie man den P-Wert in einer linearen Regression in Excel berechnet (3 Wege)
Motivation aus den unabhängigen Variablen entfernen
Nachdem ich die Motivation als unabhängige Variable gestrichen hatte, wandte ich den gleichen Ansatz an und führte eine einfache Regressionsanalyse durch. Sie können sehen, dass alle Werte jetzt unter 0,05 liegen. Die endgültige Gleichung sollte lauten:
Jahresumsatz = 1167,8 + 19993,3*(höchstes abgeschlossenes Schuljahr)
Abbildung 3.5 [Klicken Sie auf das Bild, um eine vollständige Ansicht zu erhalten]
Hinweis
Abbildung 4
Neben dem Tool Add-Ins können Sie auch die Funktion LINEST verwenden, um eine multiple Regressionsanalyse durchzuführen. Die Funktion LINEST ist eine Array-Funktion, die das Ergebnis entweder in einer Zelle oder in einem Zellbereich zurückgeben kann. Wählen Sie zunächst den Bereich A8:B12 aus und geben Sie dann die Formel "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" in die erste Zelle dieses Bereichs (A8) ein. Nachdem Sie STRG + SHIFT +ENTER gedrückt haben, gibt Excel die folgenden Ergebnisse zurückBeim Vergleich mit Abbildung 3.4 können Sie sehen, dass 19993,3 der Koeffizient für das höchste abgeschlossene Schuljahr ist, während 1167,8 konstant ist. Ich empfehle Ihnen, das Add-Ins-Tool zu verwenden, da es viel einfacher ist.
Mehr lesen...
Umgekehrte Was-wäre-wenn-Analyse in Excel
Wie verwendet man Platzhalter in Excel?
Arbeitsdatei herunterladen
Laden Sie die Arbeitsdatei über den unten stehenden Link herunter.
Mehrfach-Regressions-Analyse.xlsx