Table des matières
Régression simple est couramment utilisée pour estimer la relation entre deux variables, par exemple, la relation entre le rendement des cultures et les précipitations ou la relation entre le goût du pain et la température du four. Cependant, nous avons plus souvent besoin d'étudier la relation entre une variable dépendante et deux ou plusieurs variables indépendantes. Par exemple, un agent immobilier peut vouloir savoirsi et comment des mesures telles que la taille de la maison, le nombre de chambres à coucher et le revenu moyen du quartier sont liées au prix de vente d'une maison. Ce type de problème peut être résolu en appliquant les principes suivants analyse de régression multiple. Cet article vous donnera un aperçu de la façon d'utiliser l'analyse de régression multiple à l'aide d'Excel.
Problème
Supposons que nous prenions 5 vendeurs choisis au hasard et que nous recueillions les informations comme indiqué dans le tableau ci-dessous : l'éducation ou la motivation ont-elles un impact sur les ventes annuelles ou non ?
Année scolaire la plus élevée terminée | Motivation mesurée par l'échelle de motivation de Higgins | Ventes annuelles en dollars |
12 | 32 | $350,000 |
14 | 35 | $399,765 |
15 | 45 | $429,000 |
16 | 50 | $435,000 |
18 | 65 | $433,000 |
Équation
En général, analyse de régression multiple suppose qu'il existe une relation linéaire entre la variable dépendante (y) et les variables indépendantes (x1, x2, x3 ... xn). Et ce type de relation linéaire peut être décrit à l'aide de la formule suivante :
Y = constante + β1*x1 + β2*x2+...+ βn*xn
Voici les explications des constantes et des coefficients :
Y | La valeur prédite de Y |
Constant | L'ordonnée à l'origine |
β1 | La variation de Y à chaque changement de 1 incrément de x1 |
β2 | La variation de Y à chaque changement de 1 incrément de x2 |
... | ... |
βn | La variation de Y à chaque changement de 1 incrément de xn |
La constante et les valeurs β1, β2... βn peuvent être calculées sur la base des données d'échantillon disponibles. Après avoir obtenu les valeurs de la constante, β1, β2... βn, vous pouvez les utiliser pour faire les prédictions.
En ce qui concerne notre problème, il n'y a que deux facteurs qui nous intéressent. L'équation sera donc la suivante :
Ventes annuelles = constante + β1*(Année scolaire la plus élevée terminée) + β2*(Motivation mesurée par l'échelle de motivation de Higgins)
Modèle de configuration
Les ventes annuelles, l'année scolaire la plus élevée et la motivation ont été saisies dans la colonne A, la colonne B et la colonne C, comme le montre la figure 1. Il est préférable de toujours placer la variable dépendante (ici, les ventes annuelles) avant les variables indépendantes.
Figure 1
Télécharger Analysis ToolPak
Excel nous offre une fonction d'analyse de données qui peut retourner des valeurs de constantes et de coefficients. Mais avant d'utiliser cette fonction, vous devez télécharger Analysis ToolPak. Voici comment l'installer.
Cliquez sur le Fichier tab -> ; Options puis cliquez sur Compléments d'information sur Options Excel Cliquez sur Allez sur en bas de la page Options Excel pour ouvrir la boîte de dialogue Compléments d'information Dans la boîte de dialogue Compléments d'information sélectionnez Analyse TookPak puis cliquez sur Ok .
Maintenant, si vous cliquez sur Données vous verrez Analyse des données apparaît dans le Analyse (panneau de droite).
Figure 2 [cliquer sur l'image pour obtenir une vue complète]
Analyse de régression multiple
Cliquez sur Analyse des données dans le Analyse groupe sur le Données Sélectionnez Régression Dans le prompteur Analyse des données Vous pouvez également effectuer d'autres opérations analyse statistique comme le test t, l'ANOVA, etc.
Figure 3.1
A Régression Une boîte de dialogue s'affichera après que vous ayez sélectionné Régression Remplissez la boîte de dialogue comme indiqué dans la Figure 3.2.
La plage d'entrée Y contient la variable dépendante et les données tandis que la plage d'entrée X contient les variables indépendantes et les données. Ici, je dois vous rappeler que les variables indépendantes doivent être dans des colonnes adjacentes. Et le nombre maximum de variables indépendantes est de 15.
Puisque la plage A1 : C1 comprend des étiquettes variables, la case à cocher Étiquettes doit être sélectionnée. En fait, je vous recommande d'inclure des étiquettes chaque fois que vous remplissez la plage d'entrée Y et la plage d'entrée X. Ces étiquettes sont utiles lorsque vous examinez les rapports sommaires renvoyés par Excel.
Figure 3.2
En cochant la case Résidus, vous pouvez permettre à Excel de lister les résidus pour chaque observation. Regardez la Figure 1, il y a 5 observations au total et vous obtiendrez 5 résidus. Le résidu est ce qui reste lorsque vous soustrayez la valeur prédite de la valeur observée. Le résidu standardisé est le résidu divisé par son écart type.
Vous pouvez également cocher la case Tracé résiduel qui permet à Excel de renvoyer des tracés résiduels. Le nombre de tracés résiduels est égal au nombre de variables indépendantes. Un tracé résiduel est un graphique qui montre les résidus sur l'axe des Y et les variables indépendantes sur l'axe des X. Des points dispersés de manière aléatoire autour de l'axe des X dans un tracé résiduel impliquent que les variables indépendantes ne sont pas représentées. régression linéaire Par exemple, la figure 3.3 montre trois modèles typiques de tracés de résidus. Seul le modèle de gauche indique qu'il s'agit d'un bon ajustement pour un modèle linéaire. Les deux autres modèles suggèrent un meilleur ajustement pour un modèle non linéaire.
Figure 3.3
Excel renvoie un tracé linéaire ajusté si vous cochez la case Line Fit Plots. Un tracé linéaire ajusté peut représenter la relation entre une variable dépendante et une variable indépendante. En d'autres termes, Excel vous renvoie le même nombre de tracés linéaires ajustés que celui de la variable indépendante. Par exemple, vous obtiendrez 2 tracés linéaires ajustés pour notre problème.
Résultats
Après avoir cliqué sur le bouton Ok, Excel vous renvoie un rapport de synthèse comme ci-dessous. Les cellules surlignées en vert et en jaune sont les plus importantes et vous devez y prêter attention.
Figure 3.4
Plus le R-carré (cellule F5) est élevé, plus la relation entre les variables dépendantes et les variables indépendantes est étroite. Et les coefficients (plage F17 : F19) dans le troisième tableau vous ont renvoyé les valeurs des constantes et des coefficients. L'équation devrait être Ventes annuelles = 1589.2 + 19928.3*(Année scolaire la plus élevée terminée) + 11.9*(Motivation mesurée par l'échelle de motivation de Higgins).
Cependant, pour voir si les résultats sont fiables, vous devez également vérifier les valeurs p surlignées en jaune. Ce n'est que si la valeur p dans la cellule J12 est inférieure à 0,05 que l'équation de régression entière est fiable. Mais vous devez également vérifier les valeurs p dans la plage I17 : I19 pour voir si les variables constantes et indépendantes sont utiles pour la prédiction de la variable dépendante. Pour notre problème, il est préférable pour nous d'écartermotivation lors de la prise en compte des variables indépendantes.
Lire la suite : Comment calculer la valeur P dans une régression linéaire dans Excel (3 façons)
Retirer la motivation des variables indépendantes
Après avoir supprimé la motivation comme variable indépendante, j'ai appliqué la même approche et fait une analyse de régression simple. Vous pouvez voir que toutes les valeurs sont inférieures à 0,05 maintenant. L'équation finale devrait être :
Ventes annuelles = 1167,8 + 19993,3*(Année scolaire la plus élevée terminée)
Figure 3.5 [cliquez sur l'image pour obtenir une vue complète].
Note
Figure 4
Outre l'outil Add-Ins, vous pouvez également utiliser la fonction LINEST pour effectuer une analyse de régression multiple. La fonction LINEST est une fonction de tableau qui peut renvoyer le résultat dans une cellule ou une plage de cellules. Tout d'abord, sélectionnez la plage A8:B12, puis saisissez la formule "=LINEST (A2:A6, B2:B6, TRUE, TRUE)" dans la première cellule de cette plage (A8). Après avoir appuyé sur CTRL + SHIFT +ENTER, Excel renvoie les résultats suivantsEn comparant avec la figure 3.4, vous pouvez voir que 19993.3 est le coefficient de l'année d'études la plus élevée, tandis que 1167.8 est constant. Quoi qu'il en soit, je vous recommande d'utiliser l'outil Add-Ins. C'est beaucoup plus facile.
Lire la suite...
Analyse d'hypothèses inversée en Excel
Comment utiliser les caractères génériques dans Excel ?
Télécharger le fichier de travail
Téléchargez le fichier de travail à partir du lien ci-dessous.
Analyse régressive multiple.xlsx