Taula de continguts
regressió simple s'utilitza habitualment per estimar la relació entre dues variables, per exemple, la relació entre els rendiments dels cultius i les precipitacions o la relació entre el gust del pa i la temperatura del forn. Tanmateix, hem d'investigar la relació entre una variable dependent i dues o més variables independents més sovint que no. Per exemple, un agent immobiliari pot voler saber si i com mesures com la mida de la casa, el nombre d'habitacions i els ingressos mitjans del barri es relacionen amb el preu pel qual es ven una casa. Aquest tipus de problema es pot resoldre aplicant l'anàlisi de regressió múltiple. I aquest article us donarà un resum de com utilitzar l'anàlisi de regressió múltiple amb Excel.
Problema
Suposem que vam agafar 5 venedors seleccionats aleatòriament i vam recopilar la informació tal com es mostra a la taula següent. Si l'educació o la motivació tenen un impacte en les vendes anuals o no?
Any d'escola més alt completat | La motivació com a Mesurat per l'escala de motivació de Higgins | Vendes anuals en dòlars |
12 | 32 | 350.000 $ |
14 | 35 | 399.765$ |
15 | 45 | 429.000 $ |
16 | 50 | 435.000$ |
18 | 65 | 433.000$ |
Equació
En general, múltiplel'anàlisi de regressió suposa que hi ha una relació lineal entre la variable dependent (y) i les variables independents (x1, x2, x3... xn). I aquest tipus de relació lineal es pot descriure mitjançant la fórmula següent:
Y = constant + β1*x1 + β2*x2+…+ βn*xn
Aquí hi ha les explicacions per a constants i coeficients :
Y | El valor previst de Y |
Constant | El Y- interceptar |
β1 | El canvi en Y cada 1 canvi d'increment en x1 |
β2 | El canvi en Y cada 1 increment canvi en x2 |
… | … |
βn | El canvi en Y cada canvi d'1 increment en xn |
Constant i β1, β2... βn es poden calcular a partir de les dades de mostra disponibles. Després d'obtenir els valors de la constant, β1, β2... βn, podeu utilitzar-los per fer les prediccions.
Pel que fa al nostre problema, només hi ha dos factors en els quals tenim interès. Per tant, l'equació serà:
Vendes anuals = constant + β1*(Any més alt d'escola completat) + β2*(Motivació mesurada per l'escala de motivació de Higgins)
Model de configuració
Les vendes anuals, el curs més alt cursat i la motivació es van introduir a la columna A, la columna B i la columna C, tal com es mostra a la figura 1. És millor posar sempre la variable dependent (vendes anuals aquí) abans de les variables independents. .
Figura 1
Baixeu el paquet d'eines d'anàlisi
Excelens ofereix la funció d'anàlisi de dades que pot retornar valors de constants i coeficients. Però abans d'utilitzar aquesta funció, heu de descarregar Analysis ToolPak. Aquí teniu com podeu instal·lar-lo.
Feu clic a la pestanya Fitxer -> Opcions i, a continuació, feu clic a Complements a Opcions d'Excel quadre de diàleg. Feu clic al botó Vés a la part inferior del quadre de diàleg Opcions d'Excel per obrir el quadre de diàleg Complements . Al quadre de diàleg Complements , seleccioneu la casella de selecció Pak d'anàlisi i feu clic a D'acord .
Ara si feu clic a Dades , veureu que apareix Anàlisi de dades al grup Anàlisi (tauler dret).
Figura 2 [feu clic a la imatge per obtenir una visió completa]
Anàlisi de regressió múltiple
Feu clic a Anàlisi de dades al grup Anàlisi de la pestanya Dades . Seleccioneu Regressió al quadre de diàleg Anàlisi de dades . També podeu fer altres anàlisis estadístiques com ara test t, ANOVA, etc.
Figura 3.1
A Regressió es demanarà un quadre de diàleg després de seleccionar Regressió . Ompliu el quadre de diàleg tal com es mostra a la figura 3.2.
L'interval Y d'entrada conté la variable dependent i les dades, mentre que l'Interval X d'entrada conté variables i dades independents. Aquí us he de recordar que les variables independents haurien d'estar en columnes adjacents. I el nombre màxim de variables independents és 15.
Atès querang A1: C1 inclou etiquetes variables i, per tant, s'ha de seleccionar la casella de selecció Etiquetes. De fet, us recomano que inclogueu etiquetes cada vegada que ompliu l'Interval Y d'entrada i l'Interval X d'entrada. Aquestes etiquetes són útils quan reviseu informes de resum retornats per Excel.
Figura 3.2
En seleccionar la casella de selecció Residuals, podeu habilitar l'Excel per enumerar els residus de cada observació. Mireu la figura 1, hi ha 5 observacions en total i obtindreu 5 residus. El residu és quelcom que queda quan es resta el valor previst del valor observat. El residu estandarditzat és el residu dividit per la seva desviació estàndard.
També podeu seleccionar la casella de selecció Plot residual que permet que Excel torni els diagrames residuals. El nombre de gràfics residuals és igual al nombre de variables independents. Un gràfic de residus és un gràfic que mostra els residus a l'eix Y i les variables independents a l'eix x. Els punts dispersos aleatòriament al voltant de l'eix x en una gràfica residual impliquen que el model regressió lineal és adequat. Per exemple, la figura 3.3 mostra tres patrons típics de parcel·les residuals. Només el del panell esquerre indica que s'adapta bé a un model lineal. Els altres dos patrons suggereixen un millor ajust per a un model no lineal.
Figura 3.3
Excel retornarà una gràfica de línies ajustades si seleccioneu la casella de selecció Line Fit Plots. Una trama de línies ajustadespot representar la relació entre una variable dependent i una variable independent. En altres paraules, Excel us retornarà el mateix nombre de traços de línies ajustades que el de la variable independent. Per exemple, obtindreu 2 gràfics de línies ajustades per al nostre problema.
Resultats
Després de fer clic al botó D'acord, Excel us retornarà un informe de resum com a continuació. Les cel·les destacades en verd i groc són la part més important a la qual hauríeu de prestar atenció.
Figura 3.4
Com més gran sigui el R-quadrat (cel·la F5), hi ha una estreta relació. entre variables dependents i variables independents. I els coeficients (interval F17: F19) de la tercera taula us van retornar els valors de constants i coeficients. L'equació hauria de ser Vendes anuals = 1589,2 + 19928,3*(Any d'escola més alt completat) + 11,9*(Motivació mesurada per l'escala de motivació de Higgins).
No obstant això, per veure si els resultats són fiables, també necessiteu per comprovar els valors p ressaltats en groc. Només si el valor p a la cel·la J12 és inferior a 0,05, tota l'equació de regressió és fiable. Però també cal comprovar els valors p en el rang I17: I19 per veure si les variables constants i independents són útils per a la predicció de la variable dependent. Per al nostre problema, és millor que descartem la motivació quan considerem variables independents.
Llegir més: Com calcular el valor P en regressió lineal a Excel (3Maneres)
Elimina la motivació de les variables independents
Després d'eliminar la motivació com a variable independent, vaig aplicar el mateix enfocament i vaig fer una anàlisi de regressió senzilla. Podeu veure que tots els valors són inferiors a 0,05 ara. L'equació final hauria de ser:
Vendes anuals = 1167,8 + 19993,3*(Any d'escola més alt completat)
Figura 3.5 [feu clic a la imatge per veure'l completa]
Nota
Figura 4
A més de l'eina de complements, també podeu utilitzar la funció LINEST per fer anàlisis de regressió múltiple. La funció LINEST és una funció de matriu que pot retornar el resultat en una cel·la o en un rang de cel·les. En primer lloc, seleccioneu l'interval A8:B12 i, a continuació, introduïu la fórmula "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" a la primera cel·la d'aquest interval (A8). Després de prémer CTRL + MAJÚS + INTRO, Excel retornarà els resultats següents. En comparar-lo amb la figura 3.4, podeu veure que 19993,3 és el coeficient del curs més alt d'escolaritat completat, mentre que 1167,8 és constant. De totes maneres, us recomano que utilitzeu l'eina de complements. És molt més fàcil.
Llegir més...
Anàlisi inversa de què passaria a Excel
Com utilitzar els comodins a Excel?
Baixeu el fitxer de treball
Descarregueu el fitxer de treball des de l'enllaç següent.
Anàlisi de regressió múltiple. xlsx