Efnisyfirlit
Að finna útlínur og fjarlægja þær er mjög algengt verkefni til að greina gögn í tölfræði, gagnavinnslu, vélanámi o.s.frv. Það eru svo margar leiðir sem þú getur fundið útlínur í gagnasafninu þínu en ferlið við að fjarlægja þá er ekki svo auðvelt að finna. Í þessari grein munum við sýna þér hvernig á að fjarlægja útlínur í Excel .
Hlaða niður vinnubók
Þú getur halað niður ókeypis Excel vinnubókinni frá hér.
Fjarlægja Outliers.xlsx
Hvað eru Outliers í Excel?
An outlier er gildi sem fellur langt frá meðal- eða miðgildi gagnasafns. Með öðrum orðum, frávik eru gildi sem eru marktækt hærri eða lægri en restin af gildunum í gagnasafni.
Hugsaðu þér um krikketleik þar sem allir kylfingarnir skoruðu um 50 en aðeins einn kylfusveinn skoraði eina öld (100 ) og annar kylfusveinn komst út á 0. Að 100 og 0 skor eru útúrsnúningarnir í þessum leik.
Oftliers eru erfiðir þar sem þeir geta skekkt niðurstöður gagnagreiningarinnar og komið fram villandi niðurstöður. Svo það er betra að finna útlínur og fjarlægja þær til að hafa slétt gagnasafn.
3 leiðir til að fjarlægja útlaga í Excel
Í þessum hluta muntu læra hvernig á að eyddu frávikum úr gagnasafninu þínu á 3 mismunandi vegu. Það er flókið ferli að fjarlægja útlínur, svo lestu alla greinina vandlega.
1. Nota Excel aðgerð til að reikna meðaltal ánOutliers
Excel TRIMMEAN aðgerð er hægt að nota til að reikna út meðaltal tiltekins gagnasafns en útiloka frávik. Gögnin sem á að útiloka eru gefin upp sem hundraðshluti. Hægt er að setja inn prósentugildið sem aukastafasnið eða prósentusnið.
Setjafræði til að reikna meðaltal án útlægra er,
=TRIMMEAN(fylki, prósent)Hér,
- fylki = Gagnasvið til að klippa og reikna út meðalniðurstöðu
- prósenta = The fjöldi gagnapunkta til að útiloka
Við skulum sjá hvernig á að útfæra þessa aðgerð til að reikna út niðurstöður með fjarlægum frávikum.
Lítum á myndina hér að ofan. Við höfum gögn frá klefi B5 til B14 . Hér eru flestar tölurnar á milli 20 og 27, en tvö gildi – 0 og 100 – eru langt frá þeim gildum. Þannig að þetta eru outliers í gagnasafninu okkar.
Fyrir gagnasafnið okkar er formúlan til að reikna út meðaltal (meðaltal) án útvikurgildanna með Excel TRIMMEAN fallinu,
=TRIMMEAN(B5:B14,0.2)
Hér,
- B5:B14 = Gagnasvið til að klippa og reikna út meðalniðurstöðu
- 0.2 (eða 20%) = Fjöldi gagnapunkta sem á að útiloka
Ef einhver tala í gagnasafninu fellur 20% frá restinni af gagnasafninu , þá verður þessi tala kölluð útlagar.
Ef þú skrifar formúluna í samræmi við gagnasafnið þitt og ýtir á Enter færðu reiknað meðaltal án útlægra fyrir gagnasafnið þitt. Í okkar tilviki heldur Hólf E6 reiknaða meðaltalinu sem er 23,50 .
Til að athuga hvort svarið sé rétt eða ekki keyrum við AVERAGE fallið í Hólf E5 sem skilar meðaltali ( 28,80 ) allra gilda á bilinu B5:B14 . Og í Cell E7 keyrum við aðra AVERAGE aðgerð með því að slá inn allar frumurnar handvirkt nema þær sem hafa útlæg gildi, og fengum ávöxtun upp á 23,50 í kjölfarið.
Þannig að við getum sagt að TRIMMEAN aðgerðin geti fjarlægt útlínur úr tilteknu gagnasafni á meðan meðaltalið er reiknað í Excel.
Lesa meira: Hvernig á að hreinsa formúlu í Excel (7+ aðferðir)
2. Fjarlægðu útlínur úr gagnasetti og línuriti í Excel
Taktu eftir eftirfarandi mynd. Við höfum nokkur gögn sem við bjuggum til línurit út frá. Af línuritinu getum við auðveldlega séð að í gagnapunktum 4 og 8 höfum við útlínur okkar .
Nú munum við sjá hvernig við getum sléttað út línuritið með því að fjarlægja útlæg gildi úr gagnasafninu.
Í öðrum reit (í okkar tilfelli er það Hólf H6 ), skrifaðu eftirfarandi formúlu,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Hér,
- C6 = Reitur sem geymir fyrstu gögnin í gagnasafninu
- C5 = Hólf fyrir ofan fyrsta gagnahólfi
- C7 = Hólf fyrir neðan fyrsta gagnahólf
- $E$6 = Mismunur á milli gagnapunkta .
Að horfa ágögnin okkar, það virðist sem þegar gagnapunktur er munur 10 einingar frá öðrum, sé hann merktur sem útlægur . Þannig að við setjum 10 í Hólf E6 og gerum það að Algerri frumuvísun svo að þetta hólf verði lagað á meðan verið er að skanna og reikna í gegnum allt gagnasafnið.
Eftir að hafa ýtt á Enter geturðu séð fyrstu gögnin eru enn að birtast í niðurstöðuhólfinu H6 . Allt sem þú þurftir að gera hér er bara að smíða formúluna þannig að við getum dregið Fill Handle til að nota formúluna á restina af frumunum.
Dragðu núna línuna niður með Fill Handle og þú munt sjá hólfin sem geymdu útlínurnar eru nú fylltar með #N/A .
Og líttu á línuritið núna, þetta er nú flatt graf án nokkurra útlægra gilda í því.
Formúlusundurliðun
=IF(
Þar sem við ætlum að bera saman gildi sem við munum draga út niðurstöðuna út frá, byrjum við formúluna með skilyrðið EF .
=IF(OG(
Við ætlum að bera saman núverandi gagnapunkt og reitinn fyrir ofan og reitinn fyrir neðan . Og ef báðir samanburðirnir eru sannir, aðeins þá munum við sýna gagnapunktinn í kjölfarið. Þannig að þar sem við þurfum að takast á við "Bæði" samanburð þá ættum við að nota AND fallið .
=IF(AND(ABS(
Þegar við drögum gagnapunkta frá, gætu sum gögn varpað neikvæðum gildum. Og það gerum við ekkivilja takast á við neikvæð gildi þar sem neikvæð gildi munu alltaf stangast á við skilyrðið um að „fjarlægja gögn þegar munurinn er 10“. Þannig að til að tryggja að við höfum alltaf jákvæðar niðurstöður þurfum við að vefja samanburðinn inn í algilda fall .
=IF(AND(ABS(C6-C5)> ;$E$6
Hér hófum við fyrsta samanburðinn okkar. Við drögum einfaldlega núverandi gildi frá með gildinu hér að ofan og sjáum hvort niðurstaðan er meiri en mismunurinn sem er geymdur í E6-klefi og gerði reitinn að Algerri tilvísun til að halda reitgildinu læstu.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)
Næst, seinni hluti samanburðarins sem er aðskilinn með kommu. Hann mun bera saman núverandi gagnapunkt við næsta gagnapunkt.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Nú setjum við kommu og ákveðið að setja NA fall þar inn ef bæði AND föllin eru satt.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Og ef AND fallið er ekki satt þá langar að skila raunverulegum gagnapunkti sem IF rangt gildi. Þannig að við sláum inn e í kommu og sendu frumviðmiðunarnúmerið C6 þar inn.
Lesa meira: Hvernig á að fjarlægja gagnaprófun í Excel (5 leiðir)
Svipuð lesning
- Hvernig á að fjarlægja haus í Excel (4 aðferðir)
- Fjarlægðu punktalínur innExcel (5 fljótlegir leiðir)
- Hvernig á að fjarlægja rist úr Excel (6 auðveldar aðferðir)
- Fjarlægja ramma í Excel (4 fljótlegar leiðir)
- Hvernig á að fjarlægja eindrægni í Excel (2 auðveldar leiðir)
3. Fjarlægðu frávik handvirkt í Excel
Önnur auðveld leið til að útrýma frávikum í Excel er að flokka gildi gagnasafnsins þíns og eyða handvirkt efstu og neðstu gildunum úr því.
Til að flokka gögnin,
- Veldu gagnasafnið.
- Farðu í Raða & Síuðu í hópnum Breyting og veldu annað hvort Raða minnstu í stærsta eða Raða frá stærstu í minnstu .
- Í okkar tilviki völdum við Raða minnstu til stærstu . Það flokkaði tölurnar í gagnasafninu okkar í hækkandi röð, setti þær minnstu efst og þær stærstu neðst.
Nú er bara að eyða þessum gögnum handvirkt. til að gera útlæg gildi gagnasafnsins ókeypis.
Við mælum ekki með því að fylgja þessu ferli þegar unnið er með stórt gagnasafn. Þegar gagnasafnið þitt er lítið og auðveldara að skoða, aðeins þá geturðu beitt þessari aðferð, annars skaltu ekki innleiða þetta.
Lesa meira: Hvernig á að fjarlægja flokkun í Excel ( 3 auðveldar aðferðir)
Niðurstaða
Þessi grein sýndi þér hvernig á að fjarlægja útlínur í Excel. Ég vona að þessi grein hafi verið þér mjög gagnleg. Ekki hika við að spyrja ef þú hefur einhverjar spurningar varðandiefni.