Innholdsfortegnelse
Å finne uteliggere og fjerne dem er en veldig vanlig oppgave for å analysere data i statistikk, datautvinning, maskinlæring osv. Det er så mange måter du kan finne uteliggere i datasettet, men prosessen for å fjerne dem er ikke så lett å finne. I denne artikkelen vil vi vise deg hvordan du fjerner uteliggere i Excel .
Last ned arbeidsbok
Du kan laste ned den gratis øvelsesarbeidsboken for Excel fra her.
Fjern Outliers.xlsx
Hva er Outliers i Excel?
En outlier er en verdi som faller langt fra middelverdien eller medianverdien til et datasett. Med andre ord, outliers er verdier som er betydelig høyere eller lavere enn resten av verdiene i et datasett.
Tenk på en cricketkamp der alle slagerne scoret rundt 50, men bare én batsman scoret et århundre (100) ) og en annen batsman kom ut på 0. At 100 og 0 skårer er utstikkerne i denne kampen.
Overfaller er problematiske da de kan skjevvrige resultatet av dataanalysen og oppstå misvisende resultater. Så det er bedre å finne uteliggere og fjerne dem for å få et jevnt datasett.
3 måter å fjerne uteliggere i Excel
I denne delen lærer du hvordan du slett uteliggere fra datasettet ditt på 3 forskjellige måter. Å fjerne uteliggere er en vanskelig prosess, så les hele artikkelen nøye.
1. Bruke Excel-funksjonen for å beregne gjennomsnitt utenOutliers
Excel TRIMMEAN-funksjonen kan brukes til å beregne gjennomsnittet av et gitt datasett mens man ekskluderer uteliggere. Datapunktene som skal ekskluderes, oppgis i prosent. Prosentverdien kan legges inn som et desimalformat eller prosentformat.
Syntaks for å beregne gjennomsnitt uten uteliggere er,
=TRIMMEAN(matrise, prosent)Her,
- array = Dataområde for å trimme og beregne gjennomsnittsresultatet
- prosent = antall datapunkter å ekskludere
La oss se hvordan du implementerer denne funksjonen for å beregne resultater med fjernede uteliggere.
Vurder bildet ovenfor. Vi har data fra celle B5 til B14 . Her er de fleste tallene mellom 20 og 27, men to verdier – 0 og 100 – er langt unna disse verdiene. Så disse er outliers i datasettet vårt.
For datasettet vårt er formelen for å beregne gjennomsnitt (gjennomsnitt) uten uteliggerverdiene med Excel-funksjonen TRIMMEAN ,
=TRIMMEAN(B5:B14,0.2)
Her,
- B5:B14 = Dataområde for å trimme og beregne gjennomsnittsresultatet
- 0,2 (eller 20%) = Antall datapunkter som skal ekskluderes
Hvis et tall i datasettet faller 20 % unna resten av datasettet , så vil det tallet kalles uteliggere.
Hvis du skriver formelen i henhold til datasettet ditt og trykker Enter , får du beregnet gjennomsnitt uten uteliggere for datasettet ditt. I vårt tilfelle holder Celle E6 det beregnede gjennomsnittet som er 23,50 .
For å sjekke om svaret er riktig eller ikke, kjører vi funksjonen GJENNOMSNITTLIG i Celle E5 som returnerer gjennomsnittet ( 28,80 ) av alle verdiene i området B5:B14 . Og i Celle E7 kjører vi en annen GJENNOMSNITTLIG funksjon ved å manuelt legge inn alle cellene bortsett fra de som har uteliggere verdier, og fikk en avkastning på 23,50 som resultat.
Så vi kan si at TRIMMEAN -funksjonen kan fjerne uteliggere fra et gitt datasett mens den beregner gjennomsnittet i Excel.
Les mer: Hvordan slette formel i Excel (7+ metoder)
2. Fjern Outliers fra datasett og linjediagram i Excel
Legg merke til følgende bilde. Vi har noen data basert på som vi laget en linjegraf. Fra linjegrafen kan vi enkelt se at i datapunktene 4 og 8 har vi våre uteliggere .
Nå skal vi se hvordan vi kan jevne ut ut linjediagrammet ved å fjerne de ytre verdiene fra datasettet.
I en annen celle (i vårt tilfelle er det Celle H6 ), skriv følgende formel,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Her,
- C6 = Celle som inneholder de første dataene i datasettet
- C5 = Celle over den første datacellen
- C7 = Celle under den første datacellen
- $E$6 = Forskjellen mellom datapunkter .
Ser påvåre data, ser det ut til at når et datapunkt er forskjellig 10 enheter fra andre, er det utpekt som en utligger . Så vi legger 10 i Celle E6 og gjør det til en Absolutt cellereferanse slik at denne cellen blir fikset mens den skanner og beregner gjennom hele datasettet.
Etter å ha trykket Enter , kan du se at de første dataene fortsatt vises i resultatcellen H6 . Alt du trengte å gjøre her er bare å konstruere formelen slik at vi kan dra Fyllhåndtaket for å bruke formelen på resten av cellene.
Nå drar du raden ned med Fyllhåndtak og du vil se cellene som inneholdt uteliggere nå er fylt med #N/A .
Og se på linjediagrammet nå, dette er nå en flat graf uten noen ytre verdier i den.
Formeloversikt
=IF(
Som vi skal sammenligne verdier basert på som vi skal trekke ut resultatet, starter vi formelen med HVIS -betingelsen.
=IF(AND(
Vi skal sammenligne gjeldende datapunkt og cellen over og cellen under . Og hvis begge sammenligningene er sanne, vil vi først vise datapunktet som et resultat. Så siden vi må forholde oss til "Begge" sammenligninger, bør vi bruke AND-funksjonen .
=IF(AND(ABS(
Når vi trekker fra datapunkter, kan noen data gi negative verdier. Og det gjør vi ikkeønsker å håndtere negative verdier da negative verdier alltid vil motsi betingelsen om å "fjerne data når forskjellen er 10". Så for å sikre at vi alltid har positive resultater, må vi pakke inn sammenligningene i en absolutt verdifunksjon .
=IF(AND(ABS(C6-C5)> ;$E$6
Her startet vi vår første sammenligning. Vi trekker ganske enkelt gjeldende verdi med verdien ovenfor og ser om resultatet er større enn forskjellsnivået som er lagret i celle E6 og gjorde cellen til en absolutt referanse for å holde celleverdien låst.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)
Neste, den andre delen av sammenligningen som er atskilt med et komma. Den vil sammenligne gjeldende datapunkt med neste datapunkt.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Nå setter vi et komma og bestemmer å sette NA-funksjonen der hvis begge OG -funksjonene er sanne.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Og hvis AND -funksjonen ikke er sann, vil vi ønsker å returnere det faktiske datapunktet som IF False verdi.Så vi skriver e i et komma og send cellereferansenummeret C6 der.
Les mer: Hvordan fjerne datavalidering i Excel (5 måter)
Lignende avlesninger
- Hvordan fjerne en overskrift i Excel (4 metoder)
- Fjern stiplede linjer innExcel (5 raske måter)
- Hvordan fjerne rutenett fra Excel (6 enkle metoder)
- Fjern rammer i Excel (4 raske måter)
- Hvordan fjerne kompatibilitetsmodus i Excel (2 enkle måter)
3. Fjern uteliggere manuelt i Excel
En annen enkel måte å eliminere uteliggere i Excel er å sortere verdiene til datasettet ditt og manuelt slette topp- og bunnverdiene fra det.
For å sortere dataene,
- Velg datasettet.
- Gå til Sorter & Filtrer i Redigering -gruppen og velg enten Sorter minste til største eller Sorter størst til minste .
- I vårt tilfelle valgte vi Sorter minste til største . Den sorterte tallene i datasettet vårt i stigende rekkefølge, og plasserte de minste øverst og de største nederst.
Slett disse dataene manuelt. for å gjøre datasettets ytre verdier gratis.
Vi anbefaler ikke å følge denne prosessen mens du arbeider med et stort datasett. Når datasettet ditt er lite og lettere å se, kan du bare bruke denne prosedyren, ellers ikke implementer dette.
Les mer: Hvordan fjerne sortering i Excel ( 3 enkle metoder)
Konklusjon
Denne artikkelen viste deg hvordan du fjerner uteliggere i Excel. Jeg håper denne artikkelen har vært veldig nyttig for deg. Spør gjerne hvis du har spørsmål angåendeemne.