Como eliminar valores atípicos en Excel (3 xeitos)

  • Comparte Isto
Hugh West

Buscar valores atípicos e eliminalos é unha tarefa moi común para analizar datos en estatísticas, minería de datos, aprendizaxe automática, etc. Hai moitas formas de atopar valores atípicos no seu conxunto de datos, pero o proceso para eliminalos non é tan sinxelo atopar. Neste artigo, mostrarémosche como eliminar valores atípicos en Excel .

Descargar o libro de traballo

Podes descargar o libro de exercicios de Excel de práctica gratuíta desde aquí.

Eliminar Outliers.xlsx

Que son Outliers en Excel?

Un outlier é un valor que se afasta moito do valor medio ou mediano dun conxunto de datos. Noutras palabras, os valores atípicos son valores que son significativamente máis altos ou inferiores que o resto dos valores dun conxunto de datos.

Pense nunha partida de cricket onde todos os bateadores marcaron uns 50 pero só un bateador anotou un século (100). ) e outro bateador saíu a 0. Que as puntuacións de 100 e 0 son os valores atípicos neste partido.

Os valores atípicos son problemáticos xa que poden sesgar o resultado da análise de datos e producir resultados enganosos. Polo tanto, é mellor buscar valores atípicos e eliminalos para ter un conxunto de datos fluido.

3 xeitos de eliminar valores atípicos en Excel

Nesta sección aprenderá a elimina os valores atípicos do teu conxunto de datos de 3 formas diferentes. Eliminar os valores atípicos é un proceso complicado, polo que lea todo o artigo con atención.

1. Utilizando a función de Excel para calcular a media senValores atípicos

Excel A función TRIMMEAN pódese usar para calcular a media dun conxunto de datos dado excluíndo os valores atípicos. Os puntos de datos a excluír ofrécense como porcentaxe. O valor porcentual pódese introducir como formato decimal ou formato porcentual.

A sintaxe para calcular a media sen valores atípicos é:

=TRIMMEAN(matriz, porcentaxe)

Aquí,

  • matriz = Intervalo de datos a recortar e calcular o resultado medio
  • porcentaxe = O número de puntos de datos para excluír

Vexamos como implementar esta función para calcular resultados cos valores atípicos eliminados.

Considera a imaxe anterior. Temos datos da Cela B5 a B14 . Aquí a maioría dos números están entre 20 e 27, pero dous valores - 0 e 100 - están moi lonxe deses valores. Polo tanto, estes son os valores atípicos do noso conxunto de datos.

Para o noso conxunto de datos, a fórmula para calcular a media (media) sen os valores atípicos coa función TRIMMEAN de Excel é,

=TRIMMEAN(B5:B14,0.2)

Aquí,

  • B5:B14 = Rango de datos a recortar e calcular o resultado medio
  • 0,2 (ou 20%) = O número de puntos de datos a excluír

Se algún número do conxunto de datos cae un 20 % do resto do conxunto de datos , entón ese número chamarase valores atípicos.

Se escribe a fórmula segundo o seu conxunto de datos e preme Intro , obterá a media calculada sen valores atípicos. para o teu conxunto de datos. No noso caso, a Cela E6 mantén a media calculada que é 23,50 .

Para comprobar se a resposta é correcta ou non, executamos a función PROMEDIO. na Cela E5 que devolve a media ( 28,80 ) de todos os valores do intervalo B5:B14 . E na Cela E7 , executamos outra función PROMEDIO introducindo manualmente todas as celas, excepto as que conteñen valores atípicos, e obtivemos como resultado un retorno de 23,50 .

Entón, podemos dicir que a función TRIMMEAN pode eliminar con éxito os valores atípicos dun conxunto de datos determinado mentres calcula a media en Excel.

Ler máis: Como borrar a fórmula en Excel (7+ métodos)

2. Elimina os valores atípicos do conxunto de datos e do gráfico de liñas en Excel

Observa a seguinte imaxe. Temos uns datos baseados nos que creamos un gráfico de liñas. A partir do gráfico de liñas, podemos ver facilmente que nos puntos de datos 4 e 8 temos os nosos valores atípicos .

Agora veremos como podemos suavizar fóra do gráfico de liñas eliminando os valores periféricos do conxunto de datos.

Noutra cela (no noso caso é Cela H6 ), escriba a seguinte fórmula,

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Aquí,

  • C6 = Cela que contén os primeiros datos do conxunto de datos
  • C5 = Cela encima da primeira cela de datos
  • C7 = Cela debaixo da primeira cela de datos
  • $E$6 = Diferenza entre os puntos de datos .

Mirandonosos datos, parece que cando un punto de datos é diferir 10 unidades doutros, desígnase como outlier . Entón, poñemos 10 na Cela E6 e convertémola nunha Referencia de cela absoluta para que esta cela se corrixa mentres se explora e se calcula a través de todo o conxunto de datos.

Despois de premer Intro , podes ver que os primeiros datos seguen aparecendo na cela de resultado H6 . Todo o que tes que facer aquí é só construír a fórmula para que poidamos arrastrar o Recheo para aplicar a fórmula ao resto das celas.

Agora arrastra a fila cara abaixo con Recheo de control e verás que as celas que tiñan os valores atípicos agora están cubertas con #N/A .

E mire agora o gráfico de liñas, agora é un gráfico aplanado sen ningún valor periférico.

Desglose de fórmulas

=IF(

Como imos comparar valores en función dos cales extraeremos o resultado, iniciamos a fórmula con a condición SI .

=IF(AND(

Imos comparar o punto de datos actual e a cela de arriba e a de abaixo . E se ambas as comparacións son certas, só entón mostraremos o punto de datos como resultado. Polo tanto, dado que necesitamos tratar coas comparacións "Ambas", deberíamos utilizar a función AND .

=IF(AND(ABS(

Cando restamos puntos de datos, algúns datos poden arroxar valores negativos. E facemos nonquere tratar con valores negativos xa que os valores negativos sempre contradirán a condición de "eliminar datos cando a diferenza sexa 10". Polo tanto, para asegurarnos de que sempre temos resultados positivos, necesitamos envolver as comparacións nunha Función de valor absoluto .

=IF(AND(ABS(C6-C5)> ;$E$6

Aquí comezamos a nosa primeira comparación. Simplemente restamos o valor actual co valor anterior e vemos se o resultado é maior que o nivel de diferenza almacenado na Cela E6 e fixo da cela unha Referencia absoluta para manter o valor da cela bloqueado.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)

A continuación, a segunda parte da comparación que está separada por coma. Comparará o punto de datos actual co seguinte punto de datos.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()

Agora poñemos unha coma e determine poñer a función NA alí se as dúas funcións AND son verdadeiras.

=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)

E se a función AND non é certa, entón queremos devolver o punto de datos real como o valor IF Falso. Así que escribimos e nunha coma e pase o número de referencia da cela C6 alí.

Ler máis: Como eliminar a validación de datos en Excel (5 xeitos)

Lecturas similares

  • Como eliminar unha cabeceira en Excel (4 métodos)
  • Eliminar liñas de puntosExcel (5 xeitos rápidos)
  • Como eliminar a cuadrícula de Excel (6 métodos sinxelos)
  • Eliminar bordos en Excel (4 xeitos rápidos)
  • Como eliminar o modo de compatibilidade en Excel (2 xeitos sinxelos)

3. Eliminar os valores atípicos manualmente en Excel

Outro xeito sinxelo de eliminar os valores atípicos en Excel é, simplemente ordenar os valores do seu conxunto de datos e eliminar manualmente os valores superiores e inferiores.

Para ordenar os valores atípicos. os datos,

  • Seleccione o conxunto de datos.
  • Vaia a Ordenar e amp; Filtra no grupo Edición e escolla Ordenar de menor a maior ou Ordenar de maior a menor .

  • No noso caso, seleccionamos Ordenar de menor a maior . Ordenou os números do noso conxunto de datos en orde ascendente, colocando os máis pequenos na parte superior e os máis grandes na parte inferior.

Agora só elimina manualmente eses datos. para que os valores periféricos do conxunto de datos sexan libres.

Non recomendamos seguir este proceso mentres se traballa cun conxunto de datos grande. Cando o teu conxunto de datos sexa pequeno e sexa máis fácil de ver, só entón podes aplicar este procedemento, se non, non o implementes.

Ler máis: Como eliminar a ordenación en Excel ( 3 Métodos sinxelos)

Conclusión

Este artigo mostrouche como eliminar valores atípicos en Excel. Espero que este artigo che resultou moi beneficioso. Non dubides en preguntar se tes algunha dúbida sobre otema.

Hugh West é un adestrador e analista de Excel altamente experimentado con máis de 10 anos de experiencia na industria. É Licenciado en Contabilidade e Finanzas e Máster en Administración de Empresas. Hugh ten unha paixón polo ensino e desenvolveu un enfoque docente único que é fácil de seguir e comprender. O seu coñecemento experto de Excel axudou a miles de estudantes e profesionais de todo o mundo a mellorar as súas habilidades e a destacar nas súas carreiras. A través do seu blog, Hugh comparte os seus coñecementos co mundo, ofrecendo titoriais de Excel gratuítos e formación en liña para axudar ás persoas e ás empresas a alcanzar todo o seu potencial.