Cuprins
Găsirea valorilor aberante și eliminarea lor este o sarcină foarte frecventă pentru a analiza datele în statistică, mineritul de date, învățarea automată etc. Există atât de multe modalități prin care puteți găsi valori aberante în setul de date, dar procesul de eliminare a acestora nu este atât de ușor de găsit. În acest articol, vă vom arăta cum să eliminați valorile aberante în Excel .
Descărcați caietul de lucru
Puteți descărca gratuit caietul de lucru Excel de practică de aici.
Îndepărtați valorile aberante.xlsxCe sunt valorile aberante în Excel?
Un valoare aberantă Cu alte cuvinte, valorile aberante sunt valori care sunt semnificativ mai mari sau mai mici decât restul valorilor dintr-un set de date.
Gândiți-vă la un meci de crichet în care toți bătăușii au marcat în jur de 50 de puncte, dar doar un singur jucător a marcat un secol (100), iar un alt jucător a fost eliminat la 0. Aceste scoruri de 100 și 0 sunt valorile aberante din acest meci.
Valorile aberante sunt problematice, deoarece pot distorsiona rezultatul analizei datelor și pot duce la rezultate înșelătoare. Prin urmare, este mai bine să se găsească valorile aberante și să se elimine pentru a obține un set de date neted.
3 moduri de a elimina valorile aberante în Excel
În această secțiune, veți învăța cum să ștergeți valorile aberante din setul dvs. de date în 3 moduri diferite. Eliminarea valorilor aberante este un proces complicat, așa că citiți cu atenție întregul articol.
1. Utilizarea funcției Excel pentru a calcula media fără valori aberante
Excel Funcția TRIMMEAN poate fi utilizat pentru a calcula media unui anumit set de date, excluzând în același timp valorile aberante. Punctele de date care urmează să fie excluse sunt furnizate sub formă de procent. Valoarea procentuală poate fi introdusă în format zecimal sau în format procentual.
Sintaxa pentru calcularea mediei fără valori aberante este,
=TRIMMEAN(array, procent)Aici,
- array = Intervalul de date pentru a tăia și a calcula rezultatul mediu
- procente = Numărul de puncte de date care trebuie excluse
Să vedem cum se implementează această funcție pentru a calcula rezultatele cu valorile aberante eliminate.
Luați în considerare imaginea de mai sus. Avem date din Celula B5 până la B14 . aici majoritatea numerelor sunt între 20 și 27, dar două valori - 0 și 100 - sunt foarte departe de aceste valori. Deci, acestea sunt valorile valori aberante în setul nostru de date.
Pentru setul nostru de date, formula pentru a calcula media (media) fără valorile aberante cu Excel TRIMMEAN funcția este,
=TRIMMEAN(B5:B14,0.2)
Aici,
- B5:B14 = Intervalul de date pentru a tăia și a calcula rezultatul mediu
- 0.2 (sau 20%) = Numărul de puncte de date care trebuie excluse
Dacă un număr din setul de date se îndepărtează cu 20% față de restul setului de date, atunci acel număr va fi numit aberant.
Dacă scrieți formula în funcție de setul dvs. de date și apăsați Introduceți , veți obține media calculată fără valori aberante pentru setul tău de date. În cazul nostru, Celula E6 deține media calculată, care este 23.50 .
Pentru a verifica dacă răspunsul este corect sau nu, vom rula aplicația Funcția AVERAGE în Celula E5 care returnează media ( 28.80 ) a tuturor valorilor din intervalul B5:B14 . și în Celula E7 , vom rula un alt MEDIU prin introducerea manuală a tuturor celulelor, cu excepția celor care conțin valori aberante, și am obținut un rezultat de 23.50 ca rezultat.
Deci putem spune că TRIMMEAN poate elimina cu succes valorile aberante dintr-un set de date dat în timp ce calculează media în Excel.
Citește mai mult: Cum să ștergeți formula în Excel (7+ metode)
2. Îndepărtați valorile aberante din setul de date și din graficul liniar în Excel
Observați următoarea imagine. Avem niște date pe baza cărora am creat un grafic liniar. Din graficul liniar, putem vedea cu ușurință că în Punctele de date 4 și 8 sunt valorile aberante. .
Acum vom vedea cum putem netezi graficul liniar prin eliminarea valorilor aberante din setul de date.
Într-o altă celulă (în cazul nostru este Celula H6 ), scrieți următoarea formulă,
=IF(AND(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6),C6)
Aici,
- C6 = Celula care conține primele date din setul de date
- C5 = Celula de deasupra primei celule de date
- C7 = Celula de sub prima celulă de date
- $E$6 = Diferența dintre punctele de date.
Privind datele noastre, se pare că atunci când un punct de date este diferă 10 unități de alții, este desemnat ca fiind un valoare aberantă Așa că am pus 10 în Celula E6 și să facă din ea o Referință absolută la celulă astfel încât această celulă să fie fixată în timpul scanării și calculării întregului set de date.
După ce ați apăsat Introduceți , puteți vedea că primele date apar în continuare în celula de rezultat H6 Tot ceea ce a trebuit să faceți aici este să construiți formula pentru a putea trage Mâner de umplere pentru a aplica formula la restul celulelor.
Acum trageți rândul în jos cu Mâner de umplere și veți vedea că celulele care conțineau valorile aberante sunt acum umplute cu #N/A .
Uitați-vă acum la graficul liniar, acesta este acum un grafic aplatizat, fără valori aberante.
Repartizarea formulei
=IF(
Deoarece vom compara valori pe baza cărora vom extrage rezultatul, inițiem formula cu semnul IF stare.
=IF(AND(
Vom compara punctul de date curent cu celula de deasupra și cu cea de dedesubt. Și dacă ambele comparații sunt adevărate, doar atunci vom afișa punctul de date ca rezultat. Așadar, din moment ce trebuie să ne ocupăm de comparațiile "Both", ar trebui să folosim Funcția AND .
=IF(AND(ABS(
Atunci când scădem puncte de date, unele date pot arunca valori negative. Și nu dorim să avem de-a face cu valori negative, deoarece valorile negative vor contrazice întotdeauna condiția de "eliminare a datelor atunci când diferența este 10". Deci, pentru a ne asigura că avem întotdeauna rezultate pozitive, trebuie să înglobăm comparațiile într-un Funcția de valoare absolută .
=IF(AND(AND(ABS(C6-C5)>$E$6
Aici am început prima noastră comparație. Pur și simplu scădem valoarea curentă cu valoarea de mai sus și vedem dacă rezultatul este mai mare decât nivelul diferenței stocate în Celula E6 și a făcut din celulă o Referință absolută pentru a menține blocată valoarea celulei.
=IF(AND(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)
În continuare, a doua parte a comparației, care este separată de o virgulă, va compara punctul de date curent cu punctul de date următor.
=IF(AND(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Acum punem o virgulă și determinăm să punem Funcția NA acolo, dacă ambele ȘI sunt adevărate.
=IF(AND(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6),C6)
Și dacă ȘI nu este adevărată, atunci dorim să returnăm punctul de date real ca fiind punctul IF Deci, introducem o virgulă și trecem numărul de referință al celulei. C6 acolo.
Citește mai mult: Cum să eliminați validarea datelor în Excel (5 moduri)
Lecturi similare
- Cum să eliminați un antet în Excel (4 metode)
- Îndepărtați liniile punctate în Excel (5 moduri rapide)
- Cum să eliminați grila din Excel (6 metode ușoare)
- Îndepărtați marginile în Excel (4 moduri rapide)
- Cum să eliminați modul de compatibilitate în Excel (2 moduri simple)
3. Eliminați manual valorile aberante în Excel
Un alt mod simplu de a elimina valorile aberante în Excel este să sortați valorile din setul de date și să ștergeți manual valorile de sus și de jos.
Pentru a sorta datele,
- Selectați setul de date.
- Mergeți la Sortare & Filtrare în Editare și alegeți fie Sortează de la cel mai mic la cel mai mare sau Sortează de la cel mai mare la cel mai mic .
- În cazul nostru, am selectat Sortează de la cel mai mic la cel mai mare A sortat numerele din setul nostru de date în ordine crescătoare, plasându-le pe cele mai mici în partea de sus și pe cele mai mari în partea de jos.
Acum, ștergeți manual aceste date pentru a elimina valorile aberante din setul de date.
Nu vă recomandăm să urmați acest proces atunci când lucrați cu un set de date mare. Când setul de date este mic și mai ușor de vizualizat, numai atunci puteți aplica această procedură, altfel nu o aplicați.
Citește mai mult: Cum să eliminați sortarea în Excel (3 metode simple)
Concluzie
Acest articol v-a arătat cum să eliminarea valorilor aberante în Excel. Sper că acest articol v-a fost foarte util. Nu ezitați să mă întrebați dacă aveți întrebări legate de acest subiect.