Table des matières
Trouver les valeurs aberrantes et les supprimer est une tâche très courante dans l'analyse des données en statistique, en exploration de données, en apprentissage automatique, etc. Il existe de nombreuses façons de trouver les valeurs aberrantes dans votre ensemble de données, mais le processus pour les supprimer n'est pas si facile à trouver. Dans cet article, nous allons vous montrer comment supprimer les valeurs aberrantes dans Excel .
Télécharger le cahier d'exercices
Vous pouvez télécharger le cahier d'exercices Excel gratuit à partir d'ici.
Supprimer les valeurs aberrantes.xlsxQue sont les valeurs aberrantes dans Excel ?
Un site aberrant est une valeur qui s'éloigne de la moyenne ou de la médiane d'un ensemble de données. En d'autres termes, les valeurs aberrantes sont des valeurs nettement supérieures ou inférieures au reste des valeurs d'un ensemble de données.
Pensez à un match de cricket où tous les batteurs ont marqué environ 50 points, mais où un seul batteur a marqué un siècle (100) et un autre batteur a été éliminé à 0. Ces scores de 100 et 0 sont les valeurs aberrantes de ce match.
Les valeurs aberrantes sont problématiques car elles peuvent fausser le résultat de l'analyse des données et produire des résultats trompeurs. Il est donc préférable de trouver les valeurs aberrantes et de les supprimer pour obtenir un ensemble de données homogène.
3 façons d'éliminer les valeurs aberrantes dans Excel
Dans cette section, vous apprendrez à supprimer les valeurs aberrantes L'élimination des valeurs aberrantes est un processus délicat, aussi lisez attentivement l'article dans son intégralité.
1. utilisation de la fonction Excel pour calculer la moyenne sans les valeurs aberrantes
Excel Fonction TRIMMEAN peut être utilisé pour calculer la moyenne d'un ensemble de données donné tout en excluant les valeurs aberrantes. Les points de données à exclure sont fournis sous forme de pourcentage. La valeur du pourcentage peut être saisie au format décimal ou en pourcentage.
La syntaxe pour calculer la moyenne sans les valeurs aberrantes est,
=TRIMMEAN(tableau, pourcentage)Ici,
- tableau = Plage de données à découper et calcul du résultat moyen
- pour cent = Le nombre de points de données à exclure
Voyons comment mettre en œuvre cette fonction pour calculer les résultats avec les valeurs aberrantes supprimées.
Considérons l'image ci-dessus. Nous avons des données de Cellule B5 à B14 . ici, la plupart des numéros sont compris entre 20 et 27, mais deux valeurs - 0 et 100 - sont très éloignés de ces valeurs. Donc, ce sont les... aberrations dans notre jeu de données.
Pour notre jeu de données, la formule pour calculer la moyenne sans les valeurs aberrantes avec Excel est la suivante TRIMMEAN la fonction est,
=TRIMMEAN(B5:B14,0.2)
Ici,
- B5:B14 = Plage de données à découper et calcul du résultat moyen
- 0.2 (ou 20%) = Le nombre de points de données à exclure
Si un chiffre de l'ensemble de données s'écarte de 20 % du reste de l'ensemble de données, ce chiffre sera qualifié d'aberrant.
Si vous écrivez la formule en fonction de votre ensemble de données et appuyez sur Entrez vous obtiendrez le moyenne calculée sans valeurs aberrantes pour votre jeu de données. Dans notre cas, Cellule E6 contient la moyenne calculée qui est 23.50 .
Pour vérifier si la réponse est correcte ou non, nous exécutons la commande Fonction MOYENNE sur Cellule E5 qui renvoie la moyenne ( 28.80 ) de toutes les valeurs de l'intervalle B5:B14 Et dans Cellule E7 nous exécutons un autre MOYENNE en saisissant manuellement toutes les cellules, sauf celles qui contiennent des valeurs aberrantes, et j'ai obtenu un résultat de 23.50 comme résultat.
On peut donc dire que le TRIMMEAN permet de supprimer les valeurs aberrantes d'un ensemble de données donné tout en calculant la moyenne dans Excel.
Lire la suite : Comment effacer une formule dans Excel (7+ méthodes)
2. supprimer les valeurs aberrantes d'un ensemble de données et d'un graphique linéaire dans Excel
Observez l'image suivante. Nous disposons de données sur lesquelles nous avons créé un graphique linéaire. À partir de ce graphique linéaire, nous pouvons facilement voir qu'en points de données 4 et 8 nous avons nos valeurs aberrantes .
Nous allons maintenant voir comment nous pouvons lisser le graphique linéaire en supprimant les valeurs aberrantes de l'ensemble de données.
Dans une autre cellule (dans notre cas, il s'agit de Cellule H6 ), écrire la formule suivante,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Ici,
- C6 = Cellule qui contient les premières données de l'ensemble de données.
- C5 = Cellule au-dessus de la première cellule de données
- C7 = Cellule située en dessous de la première cellule de données
- $E$6 = Différence entre les points de données.
En regardant nos données, il semble que lorsqu'un point de données est différer 10 unités d'autres, est désigné comme un aberrant Nous avons donc mis 10 sur Cellule E6 et en faire un Référence absolue de cellule afin que cette cellule soit fixée lors du balayage et du calcul de l'ensemble des données.
Après avoir appuyé sur Entrez vous pouvez voir que les premières données apparaissent toujours dans la cellule de résultat. H6 Tout ce que vous avez eu à faire ici, c'est de construire la formule pour que nous puissions faire glisser le... Poignée de remplissage pour appliquer la formule au reste des cellules.
Maintenant, faites glisser la rangée vers le bas avec Poignée de remplissage et vous verrez que les cellules qui contenaient les valeurs aberrantes sont maintenant remplies de... #N/A .
Et regardez le graphique linéaire maintenant, c'est maintenant un graphique aplati sans aucune valeur aberrante.
Répartition des formules
=IF(
Comme nous allons comparer des valeurs sur la base desquelles nous allons extraire le résultat, nous amorçons la formule avec l'attribut SI condition.
=IF(AND(
Nous allons comparer le point de données actuel et la cellule au-dessus et la cellule en dessous. Et si les deux comparaisons sont vraies, alors seulement nous afficherons le point de données comme résultat. Donc, puisque nous devons traiter les comparaisons "Les deux", nous devrions utiliser l'attribut Fonction ET .
=IF(AND(ABS(
Lorsque nous soustrayons des points de données, certaines données peuvent donner des valeurs négatives. Et nous ne voulons pas traiter les valeurs négatives, car elles contredisent toujours la condition consistant à "supprimer les données lorsque la différence est de 10". Donc, pour s'assurer que nous obtenons toujours des résultats positifs, nous devons envelopper les comparaisons dans une balise Fonction de la valeur absolue .
=IF(AND(ABS(C6-C5)>$E$6
C'est ici que nous avons commencé notre première comparaison. Nous soustrayons simplement la valeur actuelle à la valeur ci-dessus et nous voyons si le résultat est supérieur au niveau de différence stocké dans le fichier Cellule E6 et a fait de la cellule un Référence absolue pour garder la valeur de la cellule verrouillée.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)
Ensuite, la deuxième partie de la comparaison, séparée par une virgule, compare le point de données actuel au point de données suivant.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Maintenant, nous mettons une virgule et déterminons de mettre Fonction NA là-dedans si les deux ET sont vraies.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Et si le ET n'est pas vrai, alors nous voulons renvoyer le point de données actuel comme la fonction SI Valeur fausse. Donc on tape une virgule et on passe le numéro de référence de la cellule. C6 là-dedans.
Lire la suite : Comment supprimer la validation des données dans Excel (5 façons)
Lectures similaires
- Comment supprimer un en-tête dans Excel (4 méthodes)
- Supprimer les lignes en pointillés dans Excel (5 façons rapides)
- Comment supprimer la grille d'Excel (6 méthodes simples)
- Supprimer les bordures dans Excel (4 façons rapides)
- Comment supprimer le mode de compatibilité dans Excel (2 façons simples)
3. supprimer les valeurs aberrantes manuellement dans Excel
Une autre façon simple d'éliminer les valeurs aberrantes dans Excel consiste à trier les valeurs de votre ensemble de données et à supprimer manuellement les valeurs supérieures et inférieures.
Pour trier les données,
- Sélectionnez l'ensemble des données.
- Aller à Trier et filtrer dans le Modification de et choisissez soit Trier du plus petit au plus grand ou Trier du plus grand au plus petit .
- Dans notre cas, nous avons choisi Trier du plus petit au plus grand Il a trié les chiffres de notre jeu de données par ordre croissant, en plaçant les plus petits en haut et les plus grands en bas.
Maintenant, il suffit de supprimer manuellement ces données pour libérer l'ensemble des valeurs aberrantes de la base de données.
Nous ne recommandons pas de suivre cette procédure lorsque vous travaillez avec un grand ensemble de données. Lorsque votre ensemble de données est petit et plus facile à visualiser, c'est seulement à ce moment-là que vous pouvez appliquer cette procédure, sinon ne la mettez pas en œuvre.
Lire la suite : Comment supprimer le tri dans Excel (3 méthodes simples)
Conclusion
Cet article vous a montré comment supprimer les valeurs aberrantes dans Excel. J'espère que cet article vous a été très utile. N'hésitez pas à me demander si vous avez des questions sur le sujet.