Πίνακας περιεχομένων
Απλή παλινδρόμηση ανάλυση χρησιμοποιείται συνήθως για την εκτίμηση της σχέσης μεταξύ δύο μεταβλητών, για παράδειγμα, τη σχέση μεταξύ των αποδόσεων των καλλιεργειών και των βροχοπτώσεων ή τη σχέση μεταξύ της γεύσης του ψωμιού και της θερμοκρασίας του φούρνου. Ωστόσο, συχνότερα χρειάζεται να διερευνήσουμε τη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και δύο ή περισσότερων ανεξάρτητων μεταβλητών. Για παράδειγμα, ένας κτηματομεσίτης μπορεί να θέλει να γνωρίζειαν και πώς μέτρα όπως το μέγεθος του σπιτιού, ο αριθμός των υπνοδωματίων και το μέσο εισόδημα της γειτονιάς σχετίζονται με την τιμή στην οποία πωλείται ένα σπίτι. Αυτό το είδος προβλήματος μπορεί να επιλυθεί με την εφαρμογή ανάλυση πολλαπλής παλινδρόμησης. Και αυτό το άρθρο θα σας δώσει μια περίληψη του τρόπου χρήσης της ανάλυσης πολλαπλής παλινδρόμησης με χρήση του Excel.
Πρόβλημα
Ας υποθέσουμε ότι πήραμε 5 τυχαία επιλεγμένους πωλητές και συλλέξαμε τις πληροφορίες που φαίνονται στον παρακάτω πίνακα. Εάν η εκπαίδευση ή τα κίνητρα έχουν αντίκτυπο στις ετήσιες πωλήσεις ή όχι;
Ανώτατο έτος σπουδών | Κίνητρα όπως μετρήθηκαν με την κλίμακα κινήτρων Higgins | Ετήσιες πωλήσεις σε δολάρια |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Εξίσωση
Γενικά, ανάλυση πολλαπλής παλινδρόμησης υποθέτει ότι υπάρχει γραμμική σχέση μεταξύ της εξαρτημένης μεταβλητής (y) και των ανεξάρτητων μεταβλητών (x1, x2, x3 ... xn). Και αυτό το είδος γραμμικής σχέσης μπορεί να περιγραφεί με τον ακόλουθο τύπο:
Y = σταθερά + β1*x1 + β2*x2+...+ βn*xn
Ακολουθούν οι εξηγήσεις για τις σταθερές και τους συντελεστές:
Y | Η προβλεπόμενη τιμή του Y |
Σταθερή | Η μεσοκάθετος Υ |
β1 | Η μεταβολή στο Y για κάθε 1 βήμα μεταβολής στο x1 |
β2 | Η μεταβολή του Υ για κάθε 1 βήμα μεταβολής του x2 |
... | ... |
βn | Η μεταβολή στο Y κάθε 1 βήμα μεταβολής στο xn |
Η σταθερά και τα β1, β2... βn μπορούν να υπολογιστούν με βάση τα διαθέσιμα δειγματικά δεδομένα. Αφού λάβετε τις τιμές της σταθεράς, β1, β2... βn, μπορείτε να τις χρησιμοποιήσετε για να κάνετε τις προβλέψεις.
Όσον αφορά το πρόβλημά μας, υπάρχουν μόνο δύο παράγοντες για τους οποίους ενδιαφερόμαστε. Επομένως, η εξίσωση θα είναι:
Ετήσιες πωλήσεις = σταθερά + β1*(Ανώτατο έτος ολοκλήρωσης του σχολείου) + β2*(Κίνητρα όπως μετρήθηκαν με την κλίμακα κινήτρων Higgins)
Ρύθμιση μοντέλου
Οι ετήσιες πωλήσεις, το υψηλότερο έτος αποφοίτησης από το σχολείο και το κίνητρο καταχωρήθηκαν στη στήλη Α, στη στήλη Β και στη στήλη Γ, όπως φαίνεται στο Σχήμα 1. Είναι καλύτερο να τοποθετείται πάντα η εξαρτημένη μεταβλητή (εδώ οι ετήσιες πωλήσεις) πριν από τις ανεξάρτητες μεταβλητές.
Σχήμα 1
Λήψη του Analysis ToolPak
Το Excel μας προσφέρει τη λειτουργία Ανάλυση δεδομένων η οποία μπορεί να επιστρέψει τιμές σταθερών και συντελεστών. Αλλά πριν χρησιμοποιήσετε αυτή τη λειτουργία, πρέπει να κατεβάσετε το Analysis ToolPak. Ακολουθεί ο τρόπος με τον οποίο μπορείτε να το εγκαταστήσετε.
Κάντε κλικ στο Αρχείο tab ->, Επιλογές και στη συνέχεια κάντε κλικ στο Add-Ins στο Επιλογές Excel παράθυρο διαλόγου. Κάντε κλικ στο Go στο κάτω μέρος της σελίδας Επιλογές Excel παράθυρο διαλόγου για να ανοίξει Add-Ins Στο παράθυρο διαλόγου. Add-Ins παράθυρο διαλόγου, επιλέξτε Ανάλυση TookPak πλαίσιο ελέγχου και στη συνέχεια κάντε κλικ στο Εντάξει .
Τώρα αν κάνετε κλικ στο Δεδομένα καρτέλα, θα δείτε Ανάλυση δεδομένων εμφανίζεται στο Ανάλυση ομάδα (δεξιός πίνακας).
Εικόνα 2 [κάντε κλικ στην εικόνα για πλήρη προβολή]
Ανάλυση πολλαπλής παλινδρόμησης
Κάντε κλικ στο Ανάλυση δεδομένων στο Ανάλυση ομάδα στο Δεδομένα καρτέλα. Επιλέξτε Παλινδρόμηση Στο ζητούμενο Ανάλυση δεδομένων Μπορείτε επίσης να κάνετε και άλλες στατιστική ανάλυση όπως t-test, ANOVA, και ούτω καθεξής.
Σχήμα 3.1
A Παλινδρόμηση θα εμφανιστεί παράθυρο διαλόγου αφού επιλέξετε Παλινδρόμηση . Συμπληρώστε το παράθυρο διαλόγου όπως φαίνεται στο Σχήμα 3.2.
Το Input Y Range περιέχει την εξαρτημένη μεταβλητή και τα δεδομένα, ενώ το Input X Range περιέχει τις ανεξάρτητες μεταβλητές και τα δεδομένα. Εδώ πρέπει να σας υπενθυμίσω ότι οι ανεξάρτητες μεταβλητές πρέπει να βρίσκονται σε γειτονικές στήλες. Και ο μέγιστος αριθμός ανεξάρτητων μεταβλητών είναι 15.
Δεδομένου ότι το εύρος A1: C1 περιλαμβάνει μεταβλητές ετικέτες και επομένως το πλαίσιο ελέγχου Labels πρέπει να είναι επιλεγμένο. Στην πραγματικότητα, σας συνιστώ να συμπεριλαμβάνετε ετικέτες κάθε φορά που συμπληρώνετε το Input Y Range και το Input X Range. Αυτές οι ετικέτες είναι χρήσιμες όταν εξετάζετε τις συνοπτικές αναφορές που επιστρέφονται από το Excel.
Σχήμα 3.2
Επιλέγοντας το πλαίσιο ελέγχου Residuals, μπορείτε να επιτρέψετε στο Excel να εμφανίζει τα κατάλοιπα για κάθε παρατήρηση. Κοιτάξτε το Σχήμα 1, υπάρχουν συνολικά 5 παρατηρήσεις και θα λάβετε 5 κατάλοιπα. Κατάλοιπο είναι κάτι που μένει όταν αφαιρείτε την προβλεπόμενη τιμή από την παρατηρούμενη τιμή. Τυποποιημένο κατάλοιπο είναι το κατάλοιπο διαιρεμένο με την τυπική απόκλιση.
Μπορείτε επίσης να επιλέξετε το πλαίσιο ελέγχου Residual Plot, το οποίο μπορεί να επιτρέψει στο Excel να επιστρέψει διαγράμματα καταλοίπων. Ο αριθμός των διαγραμμάτων καταλοίπων ισούται με τον αριθμό των ανεξάρτητων μεταβλητών. Ένα διάγραμμα καταλοίπων είναι ένα γράφημα που δείχνει τα κατάλοιπα στον άξονα Υ και τις ανεξάρτητες μεταβλητές στον άξονα Χ. Τυχαία διασκορπισμένα σημεία γύρω από τον άξονα Χ σε ένα διάγραμμα καταλοίπων υποδηλώνουν ότι η γραμμική παλινδρόμηση μοντέλο είναι κατάλληλο. Για παράδειγμα, στο Σχήμα 3.3 παρουσιάζονται τρία τυπικά μοτίβα των διαγραμμάτων υπολοίπων. Μόνο το ένα στο αριστερό πλαίσιο υποδεικνύει ότι είναι καλή προσαρμογή για ένα γραμμικό μοντέλο. Τα άλλα δύο μοτίβα υποδεικνύουν καλύτερη προσαρμογή για ένα μη γραμμικό μοντέλο.
Σχήμα 3.3
Το Excel θα σας επιστρέψει ένα προσαρμοσμένο γραμμικό διάγραμμα εάν επιλέξετε το πλαίσιο ελέγχου Line Fit Plots. Ένα προσαρμοσμένο γραμμικό διάγραμμα μπορεί να απεικονίσει τη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ανεξάρτητης μεταβλητής. Με άλλα λόγια, το Excel θα σας επιστρέψει τον ίδιο αριθμό προσαρμοσμένων γραμμικών διαγραμμάτων με εκείνο της ανεξάρτητης μεταβλητής. Για παράδειγμα, θα λάβετε 2 προσαρμοσμένα γραμμικά διαγράμματα για το πρόβλημά μας.
Αποτελέσματα
Αφού κάνετε κλικ στο κουμπί ΟΚ, το Excel θα σας επιστρέψει μια συνοπτική αναφορά όπως παρακάτω. Τα κελιά που επισημαίνονται με πράσινο και κίτρινο χρώμα είναι το πιο σημαντικό μέρος στο οποίο πρέπει να δώσετε την προσοχή σας.
Σχήμα 3.4
Όσο υψηλότερο είναι το τετράγωνο R (κελί F5), τόσο πιο στενή σχέση υπάρχει μεταξύ των εξαρτημένων μεταβλητών και των ανεξάρτητων μεταβλητών. Και οι συντελεστές (εύρος F17: F19) στον τρίτο πίνακα σας επέστρεψαν τις τιμές των σταθερών και των συντελεστών. Η εξίσωση θα πρέπει να είναι: Ετήσιες πωλήσεις = 1589,2 + 19928,3*(Υψηλότερο έτος αποφοίτησης στο σχολείο) + 11,9*(Κίνητρα όπως μετρήθηκαν με την κλίμακα κινήτρων Higgins).
Ωστόσο, για να δείτε αν τα αποτελέσματα είναι αξιόπιστα, πρέπει επίσης να ελέγξετε τις p-τιμές που επισημαίνονται με κίτρινο χρώμα. Μόνο αν η p-τιμή στο κελί J12 είναι μικρότερη από 0,05, ολόκληρη η εξίσωση παλινδρόμησης είναι αξιόπιστη. Αλλά πρέπει επίσης να ελέγξετε τις p-τιμές στην περιοχή I17: I19 για να δείτε αν οι σταθερές και οι ανεξάρτητες μεταβλητές είναι χρήσιμες για την πρόβλεψη της εξαρτημένης μεταβλητής. Για το πρόβλημά μας, είναι καλύτερο για εμάς να απορρίψουμεκίνητρα κατά την εξέταση των ανεξάρτητων μεταβλητών.
Διαβάστε περισσότερα: Πώς να υπολογίσετε την τιμή P στη γραμμική παλινδρόμηση στο Excel (3 τρόποι)
Αφαιρέστε το κίνητρο από τις ανεξάρτητες μεταβλητές
Αφού διέγραψα το κίνητρο ως ανεξάρτητη μεταβλητή, εφάρμοσα την ίδια προσέγγιση και έκανα μια απλή ανάλυση παλινδρόμησης. Μπορείτε να δείτε ότι όλες οι τιμές είναι τώρα μικρότερες από 0,05. Η τελική εξίσωση θα πρέπει να είναι:
Ετήσιες πωλήσεις = 1167,8 + 19993,3*(Ανώτατο έτος σχολικής φοίτησης)
Σχήμα 3.5 [κάντε κλικ στην εικόνα για να την δείτε σε πλήρη προβολή]
Σημείωση
Σχήμα 4
Εκτός από το εργαλείο Add-Ins, μπορείτε επίσης να χρησιμοποιήσετε τη συνάρτηση LINEST για να κάνετε ανάλυση πολλαπλής παλινδρόμησης. Η συνάρτηση LINEST είναι μια συνάρτηση πίνακα που μπορεί να επιστρέψει το αποτέλεσμα είτε σε ένα κελί είτε σε μια περιοχή κελιών. Πρώτα απ' όλα, επιλέξτε την περιοχή A8:B12 και στη συνέχεια εισάγετε τον τύπο "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" στο πρώτο κελί αυτής της περιοχής (A8). Αφού πατήσετε CTRL + SHIFT +ENTER, το Excel θα επιστρέψει τα αποτελέσματα ως εξήςπαρακάτω. Συγκρίνοντας με το Σχήμα 3.4, μπορείτε να δείτε ότι το 19993,3 είναι ο συντελεστής του υψηλότερου έτους ολοκλήρωσης του σχολείου, ενώ το 1167,8 είναι σταθερό. Εν πάση περιπτώσει, σας συνιστώ να χρησιμοποιήσετε το εργαλείο Add-Ins. Είναι πολύ πιο εύκολο.
Διαβάστε Περισσότερα...
Αντίστροφη ανάλυση What-If στο Excel
Πώς να χρησιμοποιείτε μπαλαντέρ στο Excel;
Λήψη αρχείου εργασίας
Κατεβάστε το αρχείο εργασίας από τον παρακάτω σύνδεσμο.
Multiple-Regression-Analysis.xlsx