Sisällysluettelo
Poikkeavien lukujen löytäminen ja niiden poistaminen on hyvin yleinen tehtävä analysoitaessa tietoja tilastoissa, tiedonlouhinnassa, koneoppimisessa jne. On niin monia tapoja, joilla voit löytää poikkeavia lukuja tietokokonaisuudestasi, mutta niiden poistaminen ei ole niin helppoa. Tässä artikkelissa näytämme sinulle, miten voit Poistetaan poikkeavat arvot Excelissä .
Lataa työkirja
Voit ladata ilmaisen harjoitus-Excel-työkirjan täältä.
Poista poikkeamat.xlsxMitä ovat Excelin poikkeamat?
An outlier on arvo, joka poikkeaa huomattavasti tietokokonaisuuden keskiarvosta tai mediaaniarvosta. Toisin sanoen poikkeamat ovat arvoja, jotka ovat huomattavasti suurempia tai pienempiä kuin muut tietokokonaisuuden arvot.
Ajattele krikettiottelua, jossa kaikki lyöjät tekivät noin 50 pistettä, mutta vain yksi lyöjä teki sadan pisteen (100) ja toinen lyöjä putosi 0 pisteellä. 100 ja 0 pistettä ovat tämän ottelun poikkeamia.
Poikkeavat arvot ovat ongelmallisia, koska ne voivat vääristää data-analyysin tuloksia ja johtaa harhaanjohtaviin tuloksiin. On siis parempi löytää poikkeavat arvot ja poistaa ne, jotta saadaan tasainen tietokokonaisuus.
3 tapaa poistaa poikkeamat Excelissä
Tässä osassa opit, miten poista poikkeamat Poikkeamien poistaminen on hankala prosessi, joten lue koko artikkeli huolellisesti.
1. Excel-funktion käyttäminen keskiarvon laskemiseen ilman poikkeamia
Excel TRIMMEAN-toiminto voidaan käyttää tietyn tietokokonaisuuden keskiarvon laskemiseen siten, että ulkopuolelle jätetään poikkeamat. Poissuljettavat datapisteet annetaan prosentteina. Prosenttiarvo voidaan syöttää desimaali- tai prosenttimuodossa.
Syntaksi keskiarvon laskemiseksi ilman poikkeamia on,
=TRIMMEAN(array, prosenttia)Täällä,
- array = Leikattavien tietojen alue ja keskimääräisen tuloksen laskeminen.
- prosenttia = poissuljettavien datapisteiden määrä
Katsotaanpa, miten tämä funktio voidaan toteuttaa tulosten laskemiseksi poistettujen poikkeavien arvojen kanssa.
Tarkastellaan yllä olevaa kuvaa. Meillä on tietoja seuraavista lähteistä Solu B5-B14 . Tässä suurin osa luvuista on välillä 20-27, mutta kaksi arvoa - - 0 ja 100 - ovat kaukana noista arvoista. Nämä ovat siis outliers aineistossamme.
Kaava keskiarvon (keskiarvon) laskemiseksi ilman poikkeavia arvoja Excelillä on seuraavanlainen tietokokonaisuudellemme. TRIMMEAN toiminto on,
=TRIMMEAN(B5:B14,0.2)
Tässä,
- B5:B14 = Leikattavien tietojen alue ja keskimääräisen tuloksen laskeminen.
- 0.2 (tai 20 %) = poissuljettavien datapisteiden määrä.
Jos jokin luku aineistossa poikkeaa 20 prosenttia muusta aineistosta, kyseistä lukua kutsutaan poikkeavaksi luvuksi.
Jos kirjoitat kaavan tietokokonaisuutesi mukaan ja painat painiketta Kirjoita , saat laskettu keskiarvo ilman poikkeamia meidän tapauksessamme, Solu E6 on laskettu keskiarvo, joka on 23.50 .
Tarkistaaksemme, onko vastaus oikea vai ei, suoritamme komennon AVERAGE-toiminto osoitteessa Solu E5 joka palauttaa keskiarvon ( 28.80 ) kaikista arvoista alueella B5:B14 . Ja Solu E7 , ajamme toisen KESKIMÄÄRÄINEN toiminto syöttämällä manuaalisesti kaikki solut lukuun ottamatta niitä, jotka sisältävät poikkeavia arvoja, ja sain tulokseksi arvon 23.50 tuloksena.
Voimme siis sanoa, että TRIMMEAN funktiolla voidaan onnistuneesti poistaa poikkeavat arvot tietystä tietokokonaisuudesta laskettaessa keskiarvoa Excelissä.
Lue lisää: Kaavan tyhjentäminen Excelissä (7 + menetelmät)
2. Poistetaan poikkeamat Excelin tietokokonaisuudesta ja viivakaaviosta.
Huomaa seuraava kuva. Meillä on joitakin tietoja, joiden perusteella olemme luoneet viivakuvaajan. Viivakuvaajasta voimme helposti nähdä, että vuonna datapisteet 4 ja 8 ovat poikkeavia arvoja. .
Nyt katsotaan, miten viivakaaviota voidaan tasoittaa poistamalla poikkeavat arvot tietokokonaisuudesta.
Toisessa solussa (meidän tapauksessamme se on Solu H6 ), kirjoitetaan seuraava kaava,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Tässä,
- C6 = Solu, jossa on tietokokonaisuuden ensimmäinen tieto.
- C5 = Ensimmäisen tietosolun yläpuolella oleva solu
- C7 = Ensimmäisen tietosolun alapuolella oleva solu
- $E$6 = Tietopisteiden välinen ero.
Kun tarkastelemme tietojamme, näyttää siltä, että kun tietopiste on erota 10 yksikköä muista, on nimetty outlier Joten laitamme 10 osoitteessa Solu E6 ja tehdä siitä Absoluuttinen soluviittaus jotta tämä solu pysyy kiinteänä, kun koko tietokokonaisuutta selataan ja lasketaan.
Kun olet painanut Kirjoita , näet, että ensimmäiset tiedot näkyvät edelleen tulossolussa. H6 . Kaikki mitä sinun piti tehdä tässä on vain rakentaa kaava niin, että voimme vetää Täyttökahva soveltaa kaavaa muihin soluihin.
Vedä nyt rivi alaspäin Täyttökahva ja näet, että solut, jotka pitivät sisällään poikkeamat, ovat nyt täynnä #N/A .
Katso nyt viivakaaviota, joka on nyt tasoitettu kuvaaja ilman poikkeavia arvoja.
Kaavan erittely
=IF(
Koska aiomme vertailla arvoja, joiden perusteella poimimme tuloksen, aloitamme kaavan komennolla IF kunto.
=IF(AND(
Aiomme verrata nykyistä datapistettä sekä ylä- että alapuolella olevaan soluun. Ja jos molemmat vertailut ovat totta, vain silloin näytämme datapisteen tuloksena. Koska meidän on siis käsiteltävä "molemmat" vertailut, meidän on hyödynnettävä AND-toiminto .
=IF(AND(ABS(
Kun vähennämme datapisteitä, osa datasta voi antaa negatiivisia arvoja. Emme halua käsitellä negatiivisia arvoja, koska negatiiviset arvot ovat aina ristiriidassa ehdon "tietojen poistaminen, kun erotus on 10" kanssa. Varmistaaksemme, että saamme aina positiivisia tuloksia, meidän on paketoitava vertailut tiedostoon Absoluuttisen arvon funktio .
=IF(AND(AND(ABS(C6-C5)>$E$6
Tästä aloitimme ensimmäisen vertailumme. Yksinkertaisesti vähennämme nykyisen arvon yllä olevasta arvosta ja katsomme, onko tulos suurempi kuin erotustaso, joka on tallennettu kohtaan Solu E6 ja teki solusta Absoluuttinen viite pitää solun arvon lukittuna.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6))
Seuraavaksi vertailun toinen osa, joka on erotettu pilkulla. Siinä verrataan nykyistä datapistettä seuraavaan datapisteeseen.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Nyt laitamme pilkun ja päätämme laittaa NA-toiminto siellä, jos sekä AND funktiot ovat totta.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Ja jos AND funktio ei ole tosi, niin haluamme palauttaa todellisen datapisteen, koska se on IF Väärä arvo. Kirjoitamme siis pilkun ja annamme solun viitenumeron... C6 siellä.
Lue lisää: Tietojen validoinnin poistaminen Excelissä (5 tapaa)
Samanlaisia lukemia
- Otsikon poistaminen Excelissä (4 menetelmää)
- Poista katkoviivat Excelissä (5 nopeaa tapaa)
- Miten poistaa ruudukko Excelistä (6 helppoa menetelmää)
- Poista reunukset Excelissä (4 nopeaa tapaa)
- Kuinka poistaa yhteensopivuustila Excelissä (2 helppoa tapaa)
3. Poista poikkeamat manuaalisesti Excelissä
Toinen helppo tapa poistaa poikkeavat arvot Excelissä on lajitella tietokokonaisuutesi arvot ja poistaa niistä manuaalisesti ylimmät ja alimmat arvot.
Tietojen lajittelu,
- Valitse tietokokonaisuus.
- Siirry osoitteeseen Lajittele & suodata vuonna Muokkaaminen ryhmä ja valitse joko Lajittele pienimmästä suurimpaan tai Lajittele suurimmasta pienimpään .
- Meidän tapauksessamme valitsimme Lajittele pienimmästä suurimpaan Se lajitteli tietokokonaisuutemme luvut nousevaan järjestykseen asettamalla pienimmät luvut ylimpään ja suurimmat alimpaan järjestykseen.
Poista nämä tiedot nyt manuaalisesti, jotta tietokokonaisuuden poikkeavat arvot vapautuvat.
Emme suosittele tämän prosessin noudattamista, kun työskentelet suuren tietokokonaisuuden kanssa. Kun tietokokonaisuutesi on pieni ja helpompi tarkastella, voit soveltaa tätä menettelyä vasta sitten, muuten älä toteuta sitä.
Lue lisää: Kuinka poistaa lajittelu Excelissä (3 helppoa menetelmää)
Päätelmä
Tämä artikkeli osoitti, miten poistaa poikkeavat arvot Toivottavasti tästä artikkelista on ollut sinulle paljon hyötyä. Kysy rohkeasti, jos sinulla on aiheeseen liittyviä kysymyksiä.