Table des matières
L'analyse de régression est présente dans presque tous les types de logiciels statistiques tels que SPSS , R, et sans parler d'Excel. La régression peut nous donner une vue d'ensemble des relations entre les variables. La régression linéaire peut être effectuée assez rapidement dans Excel en utilisant la fonction Analyse des données Cet article montre comment vous pouvez interpréter les résultats de la régression dans Excel.
Télécharger le cahier d'exercices
Téléchargez ce cahier d'exercices ci-dessous.
Qu'est-ce que la régression ?
L'analyse de régression est souvent utilisée dans l'analyse des données pour déterminer les associations entre plusieurs variables. L'analyse de régression vous permet de choisir ce qui arrive à la variable dépendante si l'une des variables indépendantes change. Elle vous permet également de déterminer mathématiquement quelles variables indépendantes ont une influence.
Régression linéaire simple est distinct de a régression linéaire multiple en statistiques. En utilisant une fonction linéaire, de simples analyses de régression linéaire l'association entre les variables et une variable indépendante. Régression linéaire multiple c'est lorsque deux facteurs explicatifs ou plus sont utilisés pour déterminer les variables. En utilisant une régression non linéaire, la variable dépendante est décrite comme une fonction non linéaire puisque les relations entre les données ne sont pas linéaires. Cet article se concentrera sur régression linéaire multiple pour démontrer comment vous pouvez interpréter les résultats de la régression dans Excel.
Étapes pour effectuer une régression dans Excel
Pour les besoins de la régression, nous utiliserons l'ensemble de données ci-dessous à des fins d'analyse. Ici la variable indépendante sera la Prix et Vendu colonne. La indépendant sera la colonne Demande colonne.
Étapes
- Nous devons aller à la Données et cliquez sur l'onglet Analyse des données pour faire une régression .
- Une nouvelle fenêtre s'ouvre ; sélectionnez la plage de données de la variable dépendante et de la variable indépendante.
- Cochez ensuite la case Étiquettes et Confiance boîte.
- Cliquez ensuite sur la case de la plage de cellules de sortie pour sélectionner l'adresse de la cellule de sortie.
- Ensuite, cochez la case Résiduel pour calculer les résidus.
- Après cela, cochez la case Résiduel et Boîtes d'ajustement linéaire
- Cliquez sur OK après ça.
- Après avoir cliqué sur OK, les paramètres de sortie primaires de l'analyse seront aux cellules spécifiées.
- Ensuite, vous obtiendrez également certains paramètres tels que Signification etc. dans le ANOVA ( Analyse de la variance ).
- Ici, df désigne le degré de liberté lié à la source de variance.
- SS Votre modèle reflètera mieux les données si la somme des carrés est supérieure à la somme des carrés. Résiduel SS est plus petit que le Total SS.
- MS signifie carré.
- F désigne le F -test de l'hypothèse nulle.
- Signification F désigne le P -valeur de F .
- Vous obtiendrez également les coefficients de la variable, la valeur de signification, etc. dans un tableau.
- Vous obtiendrez alors un tableau final sous le tableau des coefficients qui contient la valeur résiduelle pour chaque entrée.
- Ensuite, vous obtiendrez le Demande vs Prix graphique de régression, avec une ligne de tendance.
- Après cela, vous obtenez le Demande vs Vendu graphique de régression avec une ligne de tendance.
- Il y a un autre graphique qui montre la distribution des résidus de chaque entrée de la Vendu variable.
- Il y a un autre graphique montrant la distribution des résidus de chaque entrée de la Prix variable.
Ensuite, nous vous montrerons comment interpréter ces résultats de régression dans Excel.
Lire la suite : Comment faire une régression logistique dans Excel (avec des étapes rapides)
Comment interpréter les résultats d'une régression dans Excel
La prochaine chose que vous devez faire après avoir effectué l'analyse de régression et les interpréter. Les résultats sont décrits et élaborés ci-dessous.
Analyse de la valeur de régression à R-carré multiple
Le site R-carré indique à quel point les éléments de l'ensemble de données sont liés et à quel point la ligne de régression correspond aux données. Nous allons utiliser l'analyse de régression linéaire multiple, dans laquelle nous allons déterminer l'impact de deux variables ou plus sur le facteur principal. Il s'agit de la façon dont la variable dépendante change lorsque l'une des variables indépendantes change. La plage de ce coefficient est comprise entreDe -1 à 1. Ici,
- 1 signifie une relation positive étroite
- 0 signifie qu'il n'y a pas de relations entre les variables. En d'autres termes, les points de données sont aléatoires.
- -1 signifie une relation inverse ou négative entre les variables.
Dans les résultats de sortie présentés ci-dessus, la valeur R multiple des ensembles de données donnés est de o.7578( environ ), ce qui indique des relations fortes entre les variables.
R au carré
R au carré Dans notre cas, la valeur est de 0,574 (environ), ce qui peut être interprété comme une relation raisonnablement correcte entre les variables.
R-carré ajusté
Il s'agit simplement d'une version alternative de la R au carré Cela permet simplement de mélanger les prédicteur variables tout en prévoyant le réponse Il se calcule comme suit
R^2 = 1 - [(1-R^2)*(n-1)/(n-k-1)]
Ici, R^2 : Le R^2 que nous avons obtenu de l'ensemble de données.
n : le nombre d'observations.
K : le nombre de variables prédictives.
La signification de cette valeur apparaît lors de l'analyse de régression entre deux prédicteur variables. S'il y a plus d'une prédicteur dans l'ensemble de données, la valeur de R au carré sera gonflée, ce qui n'est pas du tout souhaitable. R au carré corrige cette inflation et donne une image précise des variables.
Erreur standard
Une autre mesure de la qualité de l'ajustement qui indique la précision de votre analyse de régression ; plus la valeur est faible, plus vous pouvez être sûr de votre analyse de régression.
Erreur standard est une métrique empirique représentant la distance moyenne à laquelle les points s'écartent de la ligne de tendance. En revanche, R2 représente la proportion de la variation de la variable dépendante. Dans ce cas, la valeur de Erreur standard est de 288,9 ( environ ), ce qui indique que nos points de données, en moyenne, s'écartent de 288,9 de la ligne de tendance.
Observations
Indiquez le nombre d'observations ou d'entrées.
Déterminer la variable significative
Le site Valeur significative indique la fiabilité (statistiquement valable) de notre analyse. En d'autres termes, elle indique la probabilité que notre ensemble de données soit erroné. Cette valeur doit être inférieure à 5 %. Mais dans ce cas, notre valeur de signification est de 0,00117, soit 0,1 %, ce qui est bien inférieur à 5 %. Notre analyse est donc correcte. Sinon, nous devrons peut-être choisir des variables différentes pour notre analyse.
Valeur P dans l'analyse de régression
Étroitement lié à une valeur importante, le Valeur P indique la probabilité que la valeur du coefficient soit fausse. La valeur P indique l'association de l'hypothèse nulle avec les variables.
Si votre p-value <; le Signification il y a suffisamment de preuves pour rejeter l'hypothèse de la valeur nulle, ce qui signifie qu'il existe une corrélation non nulle entre les variables.
Mais si le p-value > ; Signification cela signifie qu'il n'y a pas de preuve suffisante pour rejeter l'hypothèse nulle. Cela signifie qu'il ne peut y avoir de corrélation entre les variables.
Dans ce cas, le Valeur P de la variable Prix =0,000948 <; 0,00117 (valeur significative),
Il n'y a donc pas d'hypothèse nulle ici, et il y a suffisamment de preuves pour déclarer une corrélation entre les variables.
En revanche, pour la variable Vendu le (Valeur P) 0.0038515 <; 0.0011723 (Valeur significative)
Il pourrait donc y avoir une hypothèse nulle ici, et il n'y a pas assez de preuves pour déclarer une corrélation non nulle entre les variables.
Dans la plupart des cas, cette valeur P détermine si une variable sera dans l'ensemble de données ou non. Par exemple, nous devrions supprimer la variable Vendu variable pour préserver la robustesse de l'ensemble de données.
Équation de régression
Comme nous déterminons l'analyse de régression linéaire dans Excel, la ligne de tendance devrait également être linéaire. La forme générale est :
Y=mX+C.
Ici, Y est la variable dépendante.
Et X est la variable indépendante ici, ce qui signifie que nous allons déterminer l'effet du changement de la variable x sur la variable Y.
C sera juste la valeur de l'intersection de l'axe Y de la ligne.
Dans ce cas, la valeur de l'intercept C est égale à 9502.109853
Et la valeur de m pour les deux variables est -809.265 et 0.424818.
Nous avons donc l'équation finale pour les deux variables distinctes.
La première est :
Y=-809.265771X+9502.12Et l'équation pour la seconde variable est :
Y=0,4248X+9502,12Coefficients
Les coefficients que nous avons obtenus sont m1=-809.2655 et m2=04248 Et l'intercepteur, C= 9502.12 .
- Premièrement, la valeur d'interception indique que la demande sera de 9502 lorsque le prix est nul.
- Et les valeurs de m La valeur du coefficient de prix est de -809,265, ce qui indique qu'une augmentation unitaire du prix entraîne une baisse de la demande d'environ 809 unités.
- Pour la deuxième variable, Vendu, la valeur m est de 0,424. Cela indique que la variation par unité vendue se traduira par une augmentation du produit de 0424 unités-temps.
Résidus
Le site Résiduel La différence entre l'entrée originale et l'entrée calculée à partir de la ligne de régression est la différence. Résidus indiquent à quel point la valeur réelle est éloignée de la ligne. Par exemple, l'entrée calculée de l'analyse de régression pour la première entrée est 9497. Et la première valeur originale est 9500. Le résidu est donc d'environ 2,109.
Valeur T-Statistique
La valeur T-statique est la division du coefficient par la valeur standard. Plus la valeur est élevée, plus le coefficient est fiable.
Il existe une autre signification de cette valeur, qui est nécessaire pour calculer la valeur P.
L'intervalle de confiance de 95 %.
Ici, la confiance de la variable que nous avons fixée à 95 au début, mais elle peut changer.
- Ici, la valeur du coefficient du 95% inférieur est calculée comme 8496.84 signifie que le 95% supérieur est calculé comme 10507.37,
- Cela signifie que si notre coefficient principal est d'environ 9502.1, il y a de fortes chances que la valeur soit inférieure à 8496 dans 95% des cas et 5% de chances qu'elle soit supérieure à 10507.37.
Lire la suite :
Les choses à retenir
✎ La méthode de l'analyse de régression évalue uniquement la relation entre les variables examinées, elle n'établit pas la causalité. En d'autres termes, seul l'aspect de la corrélation est pris en compte. Lorsqu'un acte provoque quelque chose, on parle de causalité. Lorsqu'une modification d'une variable crée des changements, on peut parler de causalité.
✎ L'analyse de régression est fortement entravée par les valeurs aberrantes. Tous les types de valeurs aberrantes doivent être éliminés avant de procéder à l'analyse. Pour analyser et interpréter les résultats de l'analyse de régression dans Excel, vous devez tenir compte des points suivants.
Conclusion
En résumé, la réponse à la question "comment interpréter les résultats d'une régression dans Excel" consiste à les analyser de manière approfondie et à les interpréter par la suite. Analyse des données dans l'outil Données onglet.
Pour ce problème, un cahier d'exercices est disponible au téléchargement, dans lequel vous pouvez pratiquer l'analyse de régression et l'interpréter.
N'hésitez pas à poser des questions ou à faire part de vos commentaires dans la section réservée aux commentaires. Exceldemy sera très appréciée.