Sadržaj
Pronalaženje outliera i njihovo uklanjanje vrlo je uobičajen zadatak za analizu podataka u statistici, rudarenju podataka, strojnom učenju itd. Postoji toliko mnogo načina na koje možete pronaći outliere u svom skupu podataka, ali proces njihovog uklanjanja nije tako jednostavan pronaći. U ovom ćemo vam članku pokazati kako ukloniti outliere u programu Excel .
Preuzmi radnu knjigu
Besplatnu radnu knjigu programa Excel za vježbanje možete preuzeti s ovdje.
Ukloni Outliers.xlsx
Što su Outliers u Excelu?
An outlier je vrijednost koja se znatno razlikuje od srednje ili srednje vrijednosti skupa podataka. Drugim riječima, outlieri su vrijednosti koje su značajno više ili niže od ostalih vrijednosti u skupu podataka.
Zamislite utakmicu kriketa u kojoj su svi udarači postigli oko 50, ali je samo jedan udarač postigao jedancenturiju (100 ), a drugi udarač je izašao na 0. Tih 100 i 0 rezultata su odstupanja u ovom meču.
Odstupanja su problematična jer mogu iskriviti rezultat analize podataka i dovesti do pogrešnih rezultata. Stoga je bolje pronaći outliere i ukloniti ih kako biste imali glatki skup podataka.
3 načina za uklanjanje outliera u programu Excel
U ovom odjeljku naučit ćete kako izbrišite outliere iz skupa podataka na 3 različita načina. Uklanjanje outliera je težak proces, stoga pažljivo pročitajte cijeli članak.
1. Korištenje Excelove funkcije za izračunavanje prosjeka bezOutliers
Excel TRIMMEAN funkcija može se koristiti za izračunavanje prosjeka zadanog skupa podataka uz isključivanje outliera. Podatkovne točke koje treba isključiti daju se kao postoci. Postotna vrijednost može se unijeti kao decimalni ili postotni format.
Sintaksa za izračunavanje srednje vrijednosti bez odstupanja je,
=TRIMMEAN(niz, postotak)Ovdje,
- niz = Raspon podataka za skraćivanje i izračunavanje prosječnog rezultata
- postotak = broj podatkovnih točaka koje treba isključiti
Da vidimo kako implementirati ovu funkciju za izračun rezultata s uklonjenim ekstremima.
Razmotrite gornju sliku. Imamo podatke od ćelije B5 do B14 . Ovdje je većina brojeva između 20 i 27, ali dvije vrijednosti – 0 i 100 – daleko su od tih vrijednosti. Dakle, ovo su outliers u našem skupu podataka.
Za naš skup podataka, formula za izračunavanje srednje vrijednosti (prosjeka) bez outlier vrijednosti s funkcijom Excel TRIMMEAN je,
=TRIMMEAN(B5:B14,0.2)
Ovdje,
- B5:B14 = Raspon podataka za skraćivanje i izračunavanje prosječnog rezultata
- 0,2 (ili 20%) = Broj podatkovnih točaka koje treba isključiti
Ako bilo koji broj u skupu podataka padne 20% daleko od ostatka skupa podataka , tada će se taj broj zvati outliers.
Ako napišete formulu prema svom skupu podataka i pritisnete Enter , dobit ćete izračunatu srednju vrijednost bez outliera za vaš skup podataka. U našem slučaju, ćelija E6 sadrži izračunatu srednju vrijednost koja je 23,50 .
Da bismo provjerili je li odgovor točan ili ne, pokrećemo funkciju AVERAGE u ćeliji E5 koja vraća prosjek ( 28,80 ) svih vrijednosti u rasponu B5:B14 . A u ćeliji E7 pokrećemo još jednu funkciju AVERAGE ručnim unosom svih ćelija osim onih koje sadrže izvanredne vrijednosti, i dobili smo povrat od 23,50 kao rezultat.
Dakle, možemo reći da funkcija TRIMMEAN može uspješno ukloniti outliere iz zadanog skupa podataka dok izračunava prosjek u Excelu.
Pročitajte više: Kako izbrisati formulu u Excelu (7+ metoda)
2. Uklonite outliere iz skupa podataka i linijskog grafikona u programu Excel
Obratite pozornost na sljedeću sliku. Imamo neke podatke na temelju kojih smo napravili linijski grafikon. Iz linijskog grafikona lako možemo vidjeti da u podatkovnim točkama 4 i 8 imamo naše outliere .
Sada ćemo vidjeti kako možemo izgladiti iz linijskog grafikona uklanjanjem vanjskih vrijednosti iz skupa podataka.
U drugoj ćeliji (u našem slučaju to je ćelija H6 ), napišite sljedeću formulu,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Ovdje,
- C6 = ćelija koja sadrži prve podatke u skupu podataka
- C5 = Ćelija iznad prve podatkovne ćelije
- C7 = Ćelija ispod prve podatkovne ćelije
- $E$6 = Razlika između podatkovnih točaka .
Gledajućinaših podataka, čini se da kada se podatkovna točka razlikuje 10 jedinica od drugih, označava se kao iznimka . Dakle, stavili smo 10 u ćeliju E6 i učinili je apsolutnom referencom ćelije tako da će ova ćelija biti fiksirana tijekom skeniranja i izračuna kroz cijeli skup podataka.
Nakon pritiska Enter , možete vidjeti da se prvi podaci još uvijek pojavljuju u ćeliji rezultata H6 . Sve što ste ovdje trebali učiniti je samo konstruirati formulu kako bismo mogli povući Ručku za popunjavanje da primijenimo formulu na ostale ćelije.
Sada povucite redak prema dolje s Ručka za popunjavanje i vidjet ćete da su ćelije koje su držale outliere sada ispunjene s #N/A .
I pogledajte sada linijski grafikon, ovo je sada spljošteni grafikon bez ikakvih izvanrednih vrijednosti.
Raščlamba formule
=IF(
Budući da ćemo usporediti vrijednosti na temelju kojih ćemo izdvojiti rezultat, pokrećemo formulu s uvjet IF .
=IF(AND(
Usporedit ćemo trenutnu podatkovnu točku i ćeliju iznad i ćeliju ispod . A ako su obje usporedbe točne, tek tada ćemo prikazati podatkovnu točku kao rezultat. Dakle, budući da moramo raditi s "obje" usporedbe, trebali bismo upotrijebiti AND funkciju .
=IF(AND(ABS(
Kada oduzmemo podatkovne točke, neki podaci mogu dati negativne vrijednosti. I mi to činimo) neželite imati posla s negativnim vrijednostima jer će negativne vrijednosti uvijek proturječiti uvjetu "uklanjanja podataka kada je razlika 10". Kako bismo bili sigurni da uvijek imamo pozitivne rezultate, usporedbe moramo zamotati u Funkciju apsolutne vrijednosti .
=IF(AND(ABS(C6-C5)>) ;$E$6
Ovdje smo započeli našu prvu usporedbu. Jednostavno oduzimamo trenutnu vrijednost s gornjom vrijednošću i vidimo je li rezultat veći od razine razlike pohranjene u ćeliji E6 i učinili ćeliju Apsolutnom referencom kako bi vrijednost ćelije ostala zaključana.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)
Sljedeći, drugi dio usporedbe koji je odvojen zarezom. Uspoređivat će trenutnu podatkovnu točku sa sljedećom podatkovnom točkom.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Sada stavljamo zarez i odredite staviti NA funkciju tamo ako su obje funkcije AND istinite.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
A ako funkcija AND nije istinita, tada mi želimo vratiti stvarnu podatkovnu točku kao vrijednost IF False. Dakle, tipkamo e u zarezu i tamo unesite referentni broj ćelije C6 .
Pročitajte više: Kako ukloniti provjeru valjanosti podataka u Excelu (5 načina)
Slična čitanja
- Kako ukloniti zaglavlje u Excelu (4 metode)
- Uklonite točkaste linijeExcel (5 brzih načina)
- Kako ukloniti mrežu iz Excela (6 jednostavnih metoda)
- Uklonite obrube u Excelu (4 brza načina)
- Kako ukloniti način rada kompatibilnosti u programu Excel (2 jednostavna načina)
3. Ručno uklanjanje odstupanja u programu Excel
Još jedan jednostavan način za uklanjanje odstupanja u programu Excel je samo sortiranje vrijednosti skupa podataka i ručno brisanje gornje i donje vrijednosti iz njega.
Za sortiranje podatke,
- Odaberite skup podataka.
- Idite na Sortiraj & Filtrirajte u grupi Uređivanje i odaberite Razvrstaj od najmanjeg do najvećeg ili Poredaj od najvećeg do najmanjeg .
- U našem slučaju odabrali smo Poređaj od najmanjeg do najvećeg . Poredao je brojeve u našem skupu podataka uzlaznim redoslijedom, stavljajući najmanje na vrh, a najveće na dno.
Sada samo ručno izbrišite te podatke kako biste oslobodili izvanredne vrijednosti skupa podataka.
Ne preporučujemo da slijedite ovaj postupak dok radite s velikim skupom podataka. Kada je vaš skup podataka malen i lakši za pregled, samo tada možete primijeniti ovaj postupak, inače ga nemojte implementirati.
Pročitajte više: Kako ukloniti sortiranje u Excelu ( 3 jednostavne metode)
Zaključak
Ovaj vam je članak pokazao kako ukloniti odstupanja u Excelu. Nadam se da vam je ovaj članak bio od velike koristi. Slobodno pitajte ako imate pitanja u vezi stema.