Sommario
Può essere necessario identificare i valori anomali per eseguire calcoli statistici sui dati di un insieme di dati. È possibile scoprire i valori anomali da enormi insiemi di dati utilizzando Microsoft Excel in diversi modi. In questo post vi mostreremo come calcolare i valori anomali in Microsoft Excel utilizzando cinque modi diversi.
Scarica il quaderno di esercizi
Potete scaricare la cartella di lavoro Excel gratuita da qui ed esercitarvi da soli.
Trova gli outlier.xlsx5 approcci pratici per calcolare gli outlier in Excel
I valori fuori norma sono valori di dati significativamente diversi dal resto dei valori del set di dati. I valori anomali, in altre parole, sono valori straordinari. alto o eccessivamente basso rispetto ad altri valori di un insieme di dati. Individuare i valori anomali è fondamentale nei calcoli statistici, poiché ha un impatto sui risultati dell'analisi dei dati.
Ad esempio, avete una serie di dati che mostrano il reddito giornaliero di dodici persone. Ora dovete calcolare gli outlier utilizzando Microsoft Excel. Qui vi mostrerò cinque semplici approcci per farlo.
1. Utilizzare l'ordinamento e il filtro per calcolare gli outlier in Excel
È possibile calcolare i valori anomali da un piccolo insieme di dati utilizzando il comando Ordinamento e filtro Se si desidera calcolare i valori anomali utilizzando la funzione di ordinamento e di filtro, è possibile farlo seguendo la seguente procedura.
Fase 1:
- Per prima cosa, selezionare l'intestazione della colonna nel set di dati di excel che si desidera ordinare. Ad esempio, nel set di dati dato, nell'intestazione della colonna del file denominata Reddito giornaliero (Cellula C40 è scelto).
Fase 2:
- Quindi, premere il tasto Casa sulla barra multifunzione e andare alla voce Editing gruppo.
Fase 3:
- Successivamente, nella Modifica del gruppo fare clic sul pulsante Ordinamento e filtro e fare clic sul comando Personalizzato Ordinamento .
Passo 4:
- Quindi, una nuova finestra di dialogo denominata Ordinamento Nella finestra di dialogo visualizzata, selezionare Giornaliero Reddito nel Ordina per a discesa e Dal più piccolo al più grande nel menu a tendina Ordine, quindi fare clic su OK .
Passo 5:
- Infine, il Reddito giornaliero Dopo aver eseguito la procedura, si devono verificare eventuali irregolarità nell'intervallo di dati per determinare i valori anomali.
Ad esempio, i primi due valori della colonna sono significativamente più bassi e gli ultimi due valori della colonna sono sostanzialmente più alti rispetto al resto dei valori del set di dati, come mostrato nel risultato precedente.
Per saperne di più: Come trovare gli outlier nell'analisi di regressione in Excel (3 modi semplici)
2. Applicare la funzione QUARTILE per calcolare gli outlier in Excel
La funzione QUARTILE è un metodo più scientifico per calcolare gli outlier in Excel. È possibile utilizzare questa funzione per dividere i set di dati in quattro porzioni uguali. I seguenti valori saranno restituiti da la funzione QUARTILE :
- Il minimo valore.
- Il 1a quartile (Q1- 25% più basso di un dato set di dati).
- Il 2a quartile (Q2-il 25% più basso del dataset).
- Il 3a quartile (Q3- secondo 25% più alto del dataset).
- Il massimo valore.
La sintassi di la funzione QUARTILE in Excel è:
=QUARTILE(array,quart)
La sintassi contiene i seguenti argomenti:
- a rray : l'intervallo di celle di un dato set di dati per il quale calcolare il valore del quartile.
- quartino: Specifica quale valore deve essere restituito.
Per calcolare gli outlier per il set di dati di cui sopra usando la funzione QUARTILE, seguire i passaggi indicati di seguito.
Fase 1:
- In primo luogo, digitare la seguente formula per determinare il valore di 1a quartile ( Q1 ) è riportata di seguito.
=QUARTILE($C$5:$C$16,1)
Fase 2:
- Anche in questo caso, la formula per calcolare il 3a quartile ( Q3 ) è riportata di seguito.
=QUARTILE($C$5:$C$16,3)
Fase 3:
- In terzo luogo, è necessario determinare il IQR, che è il Intervallo inter-quartile (rappresenta 50% dei dati forniti da un intervallo di set di dati che rientrano nel primo e nel terzo quartile) sottraendo Q1 (in cella G4 ) da Q3 (in cella G5 ). Digitare la seguente formula per calcolare la sottrazione.
=G5-G4
Passo 4:
- Dopo aver trovato IQR, Successivamente è necessario determinare il superiore e inferiore Perché il superiore e inferiore Il limite superiore conterrebbe la maggior parte dei dati del set di dati. Scrivete la seguente formula per calcolare il limite superiore.
=G5+(1,5*G6)
Passo 5:
- Quindi, per calcolare il limite inferiore, scrivere la seguente formula.
=G4-(1,5*G6)
Passo 6:
- Infine, dopo aver completato il passaggio precedente, è possibile determinare gli outlier per ogni valore dei dati. Nel foglio di lavoro excel, digitare la seguente formula con la funzione OR in cella D5 .
=OR(C5$G$7)
- Questa formula aiuterà a identificare i dati che non rientrano nel limite dell'intervallo sopra indicato. Dopo l'elaborazione la formula mostrerà una Dichiarazione VERA se i dati specifici sono un outlier e FALSO se non lo è. Doppio clic sul Riempimento automatico strumento in cella C5 per copiare la formula al resto delle celle in colonna C In questo modo, è possibile osservare un valore Vero accanto a tutti gli outlier del set di dati.
3. Combinare le funzioni AVERAGE e STDEV.P per calcolare gli outlier dalla media e dalla deviazione standard
A deviazione standard (o σ ) è una metrica per determinare la distribuzione dei dati rispetto al valore medio dell'intero set di dati. I dati sono raggruppati intorno alla media quando la deviazione standard è bassa, mentre sono più sparpagliati quando la deviazione standard è alta. Per calcolare gli outlier utilizzando il parametro Media e Deviazione standard è possibile seguire la seguente procedura.
Fase 1:
- Per prima cosa, utilizzate lo stesso set di dati mostrato all'inizio di questo articolo e calcolate la media e la deviazione standard. Per calcolare la media, digitate la seguente formula con la funzione MEDIA in cella G5 .
=MEDIA(C5:C16)
Fase 2:
- Per calcolare la deviazione standard, inserire la seguente formula con la funzione STDEV.P in cella G6 .
=STDEV.P(C5:C16)
Fase 3:
- Successivamente, si calcolerà il limite superiore per l'ulteriore avanzamento del processo. Nella cella G7 , calcolare il limite inferiore utilizzando la seguente formula.
=G5-(1,25*G6)
Passo 4:
- E nella cella G8 calcolare il limite superiore con la seguente formula
=G5+(1,5*G6)
Passo 5:
- Successivamente, per calcolare se esistono o meno valori anomali, digitare la seguente formula nella cella D5 .
=OR(C5$G$8)
- Pertanto, la formula restituirà un valore VERO se il dato specifico nella cella desiderata è un outlier e FALSO.
- Doppio clic sul Riempimento automatico strumento in cella D5 per copiare la formula nel resto delle celle in colonna D In questo modo è possibile individuare tutti gli outlier rimanenti nel set di dati.
Per saperne di più: Come trovare i valori anomali con la deviazione standard in Excel (con passaggi rapidi)
4. Inserire il punteggio Z per calcolare gli outlier in Excel
Il Punteggio Z è una delle metriche più utilizzate per identificare gli outlier. Questo metodo mostra quanto un dato specifico sia lontano dalla media di un set di dati rispetto alla sua deviazione standard. Per calcolare gli outlier usando Punteggio Z in Excel è possibile vedere i passaggi descritti di seguito.
Fase 1:
- In primo luogo, prendere il set di dati desiderato.
Fase 2:
- In secondo luogo, nella cella H5, digitare la seguente formula per il calcolo del media per i dati forniti.
=MEDIA(C5:C16)
Fase 3:
- In terzo luogo, calcolare il deviazione standard del set di dati dato nella cella H6 utilizzando la seguente formula.
=STDEV.P(C5:C16)
Passo 4:
- Successivamente, è necessario determinare il Z -Punteggio per ogni valore dei dati. A tale scopo si utilizza la formula riportata di seguito.
=(C5-$H$5)/$H$6
Passo 5:
- Dopo aver calcolato tutti i Valori Z, si vedrà che l'intervallo di Valori Z è tra -1.44 e 13 Quindi, consideriamo i valori di Punteggio Z inferiore a -1,2 o superiore a +1.8 per i limiti dei valori anomali.
- Quindi, digitare la seguente formula nella cella E 5 .
=OR((D51.8))
- Infine, la formula restituirà un valore VERO se il dato specifico è un outlier e restituirà FALSO
- Doppio clic sulla cella E5 per utilizzare il Riempimento automatico per copiare la formula nel resto delle celle in colonna E In questo modo è possibile trovare tutti gli outlier rimanenti nel set di dati.
Per saperne di più: Come trovare gli outlier usando il punteggio Z in Excel (con passaggi rapidi)
5. Unire le funzioni LARGE e SMALL per trovare gli outlier in Excel
La funzione LARGE e la funzione SMALL in Excel hanno operazioni opposte. Le useremo per trovare rispettivamente i dati o i valori più grandi e più piccoli in un insieme di dati. Questa funzione estrarrà tutti i dati all'interno di un insieme di dati, trovando i numeri più piccoli e più grandi. Sono in grado di trovare il secondo più piccolo o più grande, il terzo più grande o più piccolo e così via.
Fase 1:
- Innanzitutto, utilizzare la seguente formula nella cella E5 con la funzione LARGE .
=GRANDE($C$5:$C$16,1)
- Così, da 12 si può notare il primo valore più grande che è 780 .
Fase 2:
- Successivamente, nella cella G5 scrivere la seguente formula per trovare il valore più piccolo.
=PICCOLO($C$5:$C$16,1)
- Infine, da 12 è possibile vedere i valori 1a valore più piccolo 110 .
- Una volta individuati tutti i valori richiesti, è possibile individuare facilmente eventuali valori anomali nel set di dati.
Conclusione
Spero che questo articolo vi sia stato utile. Dopo aver letto questo articolo, sarete in grado di calcolare gli outlier in Excel utilizzando uno qualsiasi dei metodi. Vi invitiamo a condividere con noi ulteriori domande o consigli nella sezione commenti qui sotto.