Tabla de contenido
Regresión simple se utiliza habitualmente para estimar la relación entre dos variables, por ejemplo, la relación entre el rendimiento de las cosechas y las precipitaciones o la relación entre el sabor del pan y la temperatura del horno. Sin embargo, la mayoría de las veces necesitamos investigar la relación entre una variable dependiente y dos o más variables independientes. Por ejemplo, un agente inmobiliario puede querer sabersi medidas como el tamaño de la casa, el número de dormitorios y la renta media del vecindario están relacionadas con el precio por el que se vende una casa, y de qué manera. Este tipo de problema puede resolverse aplicando análisis de regresión múltiple. Y este artículo le dará un resumen de cómo utilizar hacer análisis de regresión múltiple utilizando Excel.
Problema
Supongamos que tomamos 5 vendedores al azar y recopilamos la información que se muestra en la siguiente tabla. ¿Si la educación o la motivación influyen en las ventas anuales o no?
Último año de estudios | Motivación según la escala de motivación de Higgins | Ventas anuales en dólares |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Ecuación
Generalmente, análisis de regresión múltiple supone que existe una relación lineal entre la variable dependiente (y) y las variables independientes (x1, x2, x3 ... xn). Y este tipo de relación lineal se puede describir mediante la siguiente fórmula:
Y = constante + β1*x1 + β2*x2+...+ βn*xn
A continuación se explican las constantes y los coeficientes:
Y | El valor previsto de Y |
Constante | La intersección Y |
β1 | El cambio en Y cada 1 incremento de cambio en x1 |
β2 | El cambio en Y cada 1 incremento de cambio en x2 |
... | ... |
βn | El cambio en Y cada 1 incremento de cambio en xn |
La constante y β1, β2... βn pueden calcularse a partir de los datos muestrales disponibles. Una vez obtenidos los valores de la constante, β1, β2... βn, puede utilizarlos para realizar las predicciones.
En cuanto a nuestro problema, sólo hay dos factores en los que tenemos interés. Por lo tanto, la ecuación será:
Ventas anuales = constante + β1*(Año de estudios más alto completado) + β2*(Motivación medida por la escala de motivación de Higgins).
Configurar el modelo
Las ventas anuales, el año de estudios más alto y la motivación se introdujeron en las columnas A, B y C, como se muestra en la figura 1. Es mejor anteponer siempre la variable dependiente (ventas anuales) a las variables independientes.
Figura 1
Descargar Analysis ToolPak
Excel nos ofrece la función de Análisis de Datos que puede devolver valores de constantes y coeficientes. Pero antes de utilizar esta función, necesita descargar Analysis ToolPak. A continuación le indicamos cómo puede instalarlo.
Haga clic en el botón Archivo tab -> Opciones y, a continuación, haga clic en Complementos en Opciones de Excel Haga clic en Vaya a en la parte inferior de Opciones de Excel para abrir el cuadro de diálogo Complementos En el cuadro de diálogo Complementos seleccione Análisis TookPak y, a continuación, haga clic en Ok .
Ahora, si hace clic en Datos verá Análisis de datos aparece en el Análisis grupo (panel derecho).
Figura 2 [haga clic en la imagen para verla completa].
Análisis de regresión múltiple
Haga clic en Análisis de datos en el Análisis grupo en el Datos Seleccione Regresión En el Análisis de datos También puede hacer otras análisis estadístico como la prueba t, ANOVA, etc.
Figura 3.1
A Regresión después de seleccionar Regresión Rellene el cuadro de diálogo como se muestra en la Figura 3.2.
El Rango de Entrada Y contiene la variable dependiente y los datos, mientras que el Rango de Entrada X contiene las variables independientes y los datos. Aquí tengo que recordarle que las variables independientes deben estar en columnas adyacentes. Y el número máximo de variables independientes es 15.
Dado que el rango A1: C1 incluye etiquetas variables y, por tanto, la casilla de verificación Etiquetas debe estar seleccionada. De hecho, le recomiendo que incluya etiquetas cada vez que rellene Rango de entrada Y y Rango de entrada X. Estas etiquetas son útiles cuando revise los informes de resumen devueltos por Excel.
Figura 3.2
Seleccionando la casilla de verificación Residuales, puede permitir que Excel enumere los residuales de cada observación. Mire la Figura 1, hay 5 observaciones en total y obtendrá 5 residuales. Residual es algo que queda cuando se resta el valor predicho del valor observado. Residual estandarizado es el residual dividido por su desviación estándar.
También puede seleccionar la casilla de verificación Parcela residual que puede permitir que Excel devuelva parcelas residuales. El número de parcelas residuales es igual al número de variables independientes. Una parcela residual es un gráfico que muestra los residuos en el eje Y y las variables independientes en el eje x. Los puntos dispersos aleatoriamente alrededor del eje x en una parcela residual implican que el regresión lineal Por ejemplo, la Figura 3.3 muestra tres patrones típicos de gráficos de residuos. Sólo el del panel de la izquierda indica que es un buen ajuste para un modelo lineal. Los otros dos patrones sugieren un mejor ajuste para un modelo no lineal.
Figura 3.3
Excel devolverá un gráfico de líneas ajustadas si selecciona la casilla de verificación Gráficos de líneas ajustadas. Un gráfico de líneas ajustadas puede trazar la relación entre una variable dependiente y una variable independiente. En otras palabras, Excel le devolverá el mismo número de gráficos de líneas ajustadas con el de la variable independiente. Por ejemplo, obtendrá 2 gráficos de líneas ajustadas para nuestro problema.
Resultados
Después de hacer clic en el botón Aceptar, Excel le devolverá un informe resumido como el que se muestra a continuación. Las celdas resaltadas en verde y amarillo son la parte más importante a la que debe prestar atención.
Figura 3.4
Cuanto mayor sea el R-cuadrado (celda F5), más estrecha será la relación entre las variables dependientes y las independientes. Y los coeficientes (rango F17: F19) de la tercera tabla le devuelven los valores de las constantes y los coeficientes. La ecuación debería ser Ventas anuales = 1589,2 + 19928,3*(Año máximo de estudios terminados) + 11,9*(Motivación medida por la escala de motivación de Higgins).
Sin embargo, para ver si los resultados son fiables, también hay que comprobar los valores p resaltados en amarillo. Sólo si el valor p de la celda J12 es inferior a 0,05, toda la ecuación de regresión es fiable. Pero también hay que comprobar los valores p del rango I17: I19 para ver si las variables constantes e independientes son útiles para la predicción de la variable dependiente. Para nuestro problema, es mejor que descartemosmotivación al considerar las variables independientes.
Read More: Cómo calcular el valor P en regresión lineal en Excel (3 maneras)
Eliminar Motivación de las variables independientes
Tras eliminar Motivación como variable independiente, apliqué el mismo enfoque e hice un análisis de regresión simple. Puedes ver que ahora todos los valores son inferiores a 0,05. La ecuación final debería ser:
Ventas anuales = 1167,8 + 19993,3*(Año máximo de estudios terminados)
Figura 3.5 [haga clic en la imagen para verla completa].
Nota
Figura 4
Además de la herramienta Add-Ins, también puede utilizar la función LINEST para realizar análisis de regresión múltiple. La función LINEST es una función de matriz que puede devolver el resultado en una celda o en un rango de celdas. En primer lugar, seleccione el rango A8:B12 y, a continuación, introduzca la fórmula "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" en la primera celda de este rango (A8). Después de pulsar CTRL + MAYÚS +ENTRAR, Excel devolverá los resultados comoSi se compara con la Figura 3.4, se puede ver que 19993,3 es el coeficiente del año de estudios más alto, mientras que 1167,8 es constante. De todos modos, le recomiendo que utilice la herramienta Add-Ins, ya que es mucho más fácil.
Leer más...
Análisis Y si... inverso en Excel
¿Cómo utilizar comodines en Excel?
Descargar archivo de trabajo
Descargue el archivo de trabajo desde el siguiente enlace.
Análisis de regresión múltiple.xlsx