Come rimuovere gli outlier in Excel (3 modi)

  • Condividi Questo
Hugh West

Trovare gli outlier e rimuoverli è un compito molto comune per analizzare i dati in statistica, data mining, machine learning, ecc. Ci sono molti modi per trovare gli outlier nel vostro set di dati, ma il processo per rimuoverli non è così facile da trovare. In questo articolo, vi mostreremo come Rimuovere i valori anomali in Excel .

Scarica il libro di lavoro

È possibile scaricare la cartella di lavoro Excel gratuita da qui.

Rimuovere gli outlier.xlsx

Cosa sono gli outlier in Excel?

Un outlier è un valore che si discosta molto dalla media o dalla mediana di un insieme di dati. In altre parole, gli outlier sono valori significativamente più alti o più bassi rispetto al resto dei valori di un insieme di dati.

Pensate a una partita di cricket in cui tutti i battitori hanno segnato circa 50 punti, ma solo un battitore ha segnato un secolo (100) e un altro battitore è uscito a 0. I punteggi di 100 e 0 sono i valori anomali di questa partita.

Gli outlier sono problematici perché possono alterare il risultato dell'analisi dei dati e generare risultati fuorvianti. È quindi meglio individuare gli outlier e rimuoverli per ottenere un set di dati omogeneo.

3 modi per rimuovere gli outlier in Excel

In questa sezione si apprende come eliminare i valori anomali dal vostro set di dati in 3 modi diversi. La rimozione degli outlier è un processo complicato, quindi leggete attentamente l'intero articolo.

1. Utilizzo della funzione di Excel per calcolare la media senza valori anomali

Excel Funzione TRIMMEAN può essere utilizzato per calcolare la media di un dato set di dati escludendo i valori anomali. I punti di dati da escludere vengono forniti come percentuale. Il valore percentuale può essere immesso in formato decimale o in formato percentuale.

La sintassi per calcolare la media senza outlier è,

=TRIMESTRALE(array, percentuale)

Qui,

  • array = Intervallo di dati da tagliare e calcolare il risultato medio
  • percentuale = Il numero di punti dati da escludere

Vediamo come implementare questa funzione per calcolare i risultati con gli outlier rimossi.

Consideriamo l'immagine precedente: abbiamo i dati di Celle da B5 a B14 Qui la maggior parte dei numeri sono compresi tra 20 e 27, ma due valori - 0 e 100 - sono molto lontani da questi valori. Quindi queste sono le valori anomali nel nostro set di dati.

Per il nostro set di dati, la formula per calcolare la media (media) senza i valori anomali con Excel TRIMESTRALE è la funzione,

=TRIMMEAN(B5:B14,0.2)

Qui,

  • B5:B14 = Intervallo di dati da tagliare e calcolare il risultato medio
  • 0.2 (o 20%) = Numero di punti dati da escludere

Se un numero qualsiasi del set di dati si discosta del 20% dal resto del set di dati, allora quel numero sarà chiamato outlier.

Se si scrive la formula in base al set di dati e si preme il tasto Entrare , si otterrà il media calcolata senza valori anomali per il vostro set di dati. Nel nostro caso, Cellula E6 contiene la media calcolata che è 23.50 .

Per verificare se la risposta è corretta o meno, si esegue il metodo Funzione MEDIA in Cellula E5 che restituisce la media ( 28.80 ) di tutti i valori dell'intervallo B5:B14 . e in Cellula E7 , eseguiamo un altro MEDIA inserendo manualmente tutte le celle ad eccezione di quelle che contengono valori anomali, ottenendo un risultato di 23.50 come risultato.

Possiamo quindi dire che il TRIMESTRALE può rimuovere con successo i valori anomali da un dato set di dati mentre calcola la media in Excel.

Per saperne di più: Come cancellare una formula in Excel (7+ metodi)

2. Rimuovere i valori anomali dal set di dati e dal grafico a linee in Excel

Notate l'immagine seguente: abbiamo alcuni dati in base ai quali abbiamo creato un grafico a linee. Dal grafico a linee, possiamo facilmente vedere che in punti dati 4 e 8 abbiamo i nostri outlier .

Ora vedremo come rendere più omogeneo il grafico a linee, rimuovendo i valori anomali dal set di dati.

In un'altra cella (nel nostro caso è Cella H6 ), scrivere la seguente formula,

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Qui,

  • C6 = Cella che contiene i primi dati del set di dati
  • C5 = Cella sopra la prima cella di dati
  • C7 = Cella sotto la prima cella di dati
  • $E$6 = Differenza tra i punti dati.

Osservando i nostri dati, sembra che quando un punto di dati è differiscono 10 unità da altri, è designato come un outlier Così abbiamo messo 10 in Cellula E6 e renderlo un Riferimento assoluto alla cella in modo che questa cella venga fissata durante la scansione e il calcolo dell'intero set di dati.

Dopo aver premuto Entrare , si può vedere che i primi dati appaiono ancora nella cella del risultato H6 Tutto quello che si deve fare qui è costruire la formula in modo da poter trascinare i punti di Maniglia di riempimento per applicare la formula al resto delle celle.

Ora trascinate la riga verso il basso con Maniglia di riempimento e si noterà che le celle che contenevano i valori anomali sono ora riempite da #N/A .

Guardate ora il grafico a linee: si tratta di un grafico appiattito, senza alcun valore fuori scala.

Ripartizione della formula

=IF(

Poiché stiamo per confrontare i valori in base ai quali estrarremo il risultato, iniziamo la formula con l'opzione SE condizione.

=IF(AND(

Confronteremo il punto di dati corrente con la cella sopra e quella sotto. Se entrambi i confronti sono veri, solo allora mostreremo il punto di dati come risultato. Quindi, dato che abbiamo bisogno di gestire i confronti "Entrambi", dovremmo utilizzare l'opzione Funzione AND .

=IF(AND(ABS(

Quando si sottraggono i punti di dati, alcuni di essi possono presentare valori negativi. E non vogliamo avere a che fare con valori negativi, perché questi ultimi contraddicono sempre la condizione di "rimuovere i dati quando la differenza è 10". Quindi, per assicurarci di avere sempre risultati positivi, dobbiamo avvolgere i confronti in un elemento Funzione valore assoluto .

=IF(AND(ABS(C6-C5)>$E$6

Qui abbiamo iniziato il nostro primo confronto. Sottraiamo semplicemente il valore corrente con il valore precedente e vediamo se il risultato è maggiore del livello di differenza memorizzato in Cellula E6 e ha reso la cella un Riferimento assoluto per mantenere il valore della cella bloccato.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)

Quindi, la seconda parte del confronto, separata da una virgola, confronterà il punto di dati corrente con il punto di dati successivo.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()

Ora mettiamo una virgola e stabiliamo di mettere Funzione NA se entrambi i E sono vere.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

E se il E non è vero, allora vogliamo restituire il punto di dati effettivo come il parametro SE Quindi si digita una virgola e si passa il numero di riferimento della cella. C6 lì dentro.

Per saperne di più: Come rimuovere la convalida dei dati in Excel (5 modi)

Letture simili

  • Come rimuovere un'intestazione in Excel (4 metodi)
  • Rimuovere le linee tratteggiate in Excel (5 modi rapidi)
  • Come rimuovere la griglia da Excel (6 metodi semplici)
  • Rimuovere i bordi in Excel (4 modi rapidi)
  • Come rimuovere la modalità di compatibilità in Excel (2 modi semplici)

3. Rimuovere manualmente gli outlier in Excel

Un altro modo semplice per eliminare gli outlier in Excel è ordinare i valori del set di dati ed eliminare manualmente i valori più alti e più bassi.

Per ordinare i dati,

  • Selezionare il set di dati.
  • Vai a Ordinamento e filtro nel Editing e scegliere uno dei due gruppi Ordina dal più piccolo al più grande o Ordina dal più grande al più piccolo .

  • Nel nostro caso, abbiamo selezionato Ordina dal più piccolo al più grande . ordina i numeri del nostro set di dati in ordine crescente, mettendo i più piccoli in alto e i più grandi in basso.

A questo punto è sufficiente eliminare manualmente questi dati per liberare il set di dati dai valori anomali.

Si sconsiglia di seguire questa procedura quando si lavora con un set di dati di grandi dimensioni. Quando il set di dati è piccolo e più facile da visualizzare, solo allora è possibile applicare questa procedura, altrimenti non implementarla.

Per saperne di più: Come rimuovere l'ordinamento in Excel (3 metodi semplici)

Conclusione

Questo articolo vi ha mostrato come rimuovere i valori erratici Spero che questo articolo sia stato molto utile per voi. Non esitate a chiedere se avete domande sull'argomento.

Hugh West è un istruttore e analista di Excel di grande esperienza con oltre 10 anni di esperienza nel settore. Ha conseguito una laurea in Contabilità e Finanza e un Master in Economia Aziendale. Hugh ha una passione per l'insegnamento e ha sviluppato un approccio didattico unico che è facile da seguire e capire. La sua conoscenza approfondita di Excel ha aiutato migliaia di studenti e professionisti in tutto il mondo a migliorare le proprie competenze ed eccellere nella propria carriera. Attraverso il suo blog, Hugh condivide le sue conoscenze con il mondo, offrendo esercitazioni gratuite su Excel e formazione online per aiutare le persone e le aziende a raggiungere il loro pieno potenziale.