Hvordan fjerne outliers i Excel (3 måter)

  • Dele Denne
Hugh West

Å finne uteliggere og fjerne dem er en veldig vanlig oppgave for å analysere data i statistikk, datautvinning, maskinlæring osv. Det er så mange måter du kan finne uteliggere i datasettet, men prosessen for å fjerne dem er ikke så lett å finne. I denne artikkelen vil vi vise deg hvordan du fjerner uteliggere i Excel .

Last ned arbeidsbok

Du kan laste ned den gratis øvelsesarbeidsboken for Excel fra her.

Fjern Outliers.xlsx

Hva er Outliers i Excel?

En outlier er en verdi som faller langt fra middelverdien eller medianverdien til et datasett. Med andre ord, outliers er verdier som er betydelig høyere eller lavere enn resten av verdiene i et datasett.

Tenk på en cricketkamp der alle slagerne scoret rundt 50, men bare én batsman scoret et århundre (100) ) og en annen batsman kom ut på 0. At 100 og 0 skårer er utstikkerne i denne kampen.

Overfaller er problematiske da de kan skjevvrige resultatet av dataanalysen og oppstå misvisende resultater. Så det er bedre å finne uteliggere og fjerne dem for å få et jevnt datasett.

3 måter å fjerne uteliggere i Excel

I denne delen lærer du hvordan du slett uteliggere fra datasettet ditt på 3 forskjellige måter. Å fjerne uteliggere er en vanskelig prosess, så les hele artikkelen nøye.

1. Bruke Excel-funksjonen for å beregne gjennomsnitt utenOutliers

Excel TRIMMEAN-funksjonen kan brukes til å beregne gjennomsnittet av et gitt datasett mens man ekskluderer uteliggere. Datapunktene som skal ekskluderes, oppgis i prosent. Prosentverdien kan legges inn som et desimalformat eller prosentformat.

Syntaks for å beregne gjennomsnitt uten uteliggere er,

=TRIMMEAN(matrise, prosent)

Her,

  • array = Dataområde for å trimme og beregne gjennomsnittsresultatet
  • prosent = antall datapunkter å ekskludere

La oss se hvordan du implementerer denne funksjonen for å beregne resultater med fjernede uteliggere.

Vurder bildet ovenfor. Vi har data fra celle B5 til B14 . Her er de fleste tallene mellom 20 og 27, men to verdier – 0 og 100 – er langt unna disse verdiene. Så disse er outliers i datasettet vårt.

For datasettet vårt er formelen for å beregne gjennomsnitt (gjennomsnitt) uten uteliggerverdiene med Excel-funksjonen TRIMMEAN ,

=TRIMMEAN(B5:B14,0.2)

Her,

  • B5:B14 = Dataområde for å trimme og beregne gjennomsnittsresultatet
  • 0,2 (eller 20%) = Antall datapunkter som skal ekskluderes

Hvis et tall i datasettet faller 20 % unna resten av datasettet , så vil det tallet kalles uteliggere.

Hvis du skriver formelen i henhold til datasettet ditt og trykker Enter , får du beregnet gjennomsnitt uten uteliggere for datasettet ditt. I vårt tilfelle holder Celle E6 det beregnede gjennomsnittet som er 23,50 .

For å sjekke om svaret er riktig eller ikke, kjører vi funksjonen GJENNOMSNITTLIG i Celle E5 som returnerer gjennomsnittet ( 28,80 ) av alle verdiene i området B5:B14 . Og i Celle E7 kjører vi en annen GJENNOMSNITTLIG funksjon ved å manuelt legge inn alle cellene bortsett fra de som har uteliggere verdier, og fikk en avkastning på 23,50 som resultat.

Så vi kan si at TRIMMEAN -funksjonen kan fjerne uteliggere fra et gitt datasett mens den beregner gjennomsnittet i Excel.

Les mer: Hvordan slette formel i Excel (7+ metoder)

2. Fjern Outliers fra datasett og linjediagram i Excel

Legg merke til følgende bilde. Vi har noen data basert på som vi laget en linjegraf. Fra linjegrafen kan vi enkelt se at i datapunktene 4 og 8 har vi våre uteliggere .

Nå skal vi se hvordan vi kan jevne ut ut linjediagrammet ved å fjerne de ytre verdiene fra datasettet.

I en annen celle (i vårt tilfelle er det Celle H6 ), skriv følgende formel,

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Her,

  • C6 = Celle som inneholder de første dataene i datasettet
  • C5 = Celle over den første datacellen
  • C7 = Celle under den første datacellen
  • $E$6 = Forskjellen mellom datapunkter .

Ser påvåre data, ser det ut til at når et datapunkt er forskjellig 10 enheter fra andre, er det utpekt som en utligger . Så vi legger 10 i Celle E6 og gjør det til en Absolutt cellereferanse slik at denne cellen blir fikset mens den skanner og beregner gjennom hele datasettet.

Etter å ha trykket Enter , kan du se at de første dataene fortsatt vises i resultatcellen H6 . Alt du trengte å gjøre her er bare å konstruere formelen slik at vi kan dra Fyllhåndtaket for å bruke formelen på resten av cellene.

Nå drar du raden ned med Fyllhåndtak og du vil se cellene som inneholdt uteliggere nå er fylt med #N/A .

Og se på linjediagrammet nå, dette er nå en flat graf uten noen ytre verdier i den.

Formeloversikt

=IF(

Som vi skal sammenligne verdier basert på som vi skal trekke ut resultatet, starter vi formelen med HVIS -betingelsen.

=IF(AND(

Vi skal sammenligne gjeldende datapunkt og cellen over og cellen under . Og hvis begge sammenligningene er sanne, vil vi først vise datapunktet som et resultat. Så siden vi må forholde oss til "Begge" sammenligninger, bør vi bruke AND-funksjonen .

=IF(AND(ABS(

Når vi trekker fra datapunkter, kan noen data gi negative verdier. Og det gjør vi ikkeønsker å håndtere negative verdier da negative verdier alltid vil motsi betingelsen om å "fjerne data når forskjellen er 10". Så for å sikre at vi alltid har positive resultater, må vi pakke inn sammenligningene i en absolutt verdifunksjon .

=IF(AND(ABS(C6-C5)> ;$E$6

Her startet vi vår første sammenligning. Vi trekker ganske enkelt gjeldende verdi med verdien ovenfor og ser om resultatet er større enn forskjellsnivået som er lagret i celle E6 og gjorde cellen til en absolutt referanse for å holde celleverdien låst.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)

Neste, den andre delen av sammenligningen som er atskilt med et komma. Den vil sammenligne gjeldende datapunkt med neste datapunkt.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()

Nå setter vi et komma og bestemmer å sette NA-funksjonen der hvis begge OG -funksjonene er sanne.

=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Og hvis AND -funksjonen ikke er sann, vil vi ønsker å returnere det faktiske datapunktet som IF False verdi.Så vi skriver e i et komma og send cellereferansenummeret C6 der.

Les mer: Hvordan fjerne datavalidering i Excel (5 måter)

Lignende avlesninger

  • Hvordan fjerne en overskrift i Excel (4 metoder)
  • Fjern stiplede linjer innExcel (5 raske måter)
  • Hvordan fjerne rutenett fra Excel (6 enkle metoder)
  • Fjern rammer i Excel (4 raske måter)
  • Hvordan fjerne kompatibilitetsmodus i Excel (2 enkle måter)

3. Fjern uteliggere manuelt i Excel

En annen enkel måte å eliminere uteliggere i Excel er å sortere verdiene til datasettet ditt og manuelt slette topp- og bunnverdiene fra det.

For å sortere dataene,

  • Velg datasettet.
  • Gå til Sorter & Filtrer i Redigering -gruppen og velg enten Sorter minste til største eller Sorter størst til minste .

  • I vårt tilfelle valgte vi Sorter minste til største . Den sorterte tallene i datasettet vårt i stigende rekkefølge, og plasserte de minste øverst og de største nederst.

Slett disse dataene manuelt. for å gjøre datasettets ytre verdier gratis.

Vi anbefaler ikke å følge denne prosessen mens du arbeider med et stort datasett. Når datasettet ditt er lite og lettere å se, kan du bare bruke denne prosedyren, ellers ikke implementer dette.

Les mer: Hvordan fjerne sortering i Excel ( 3 enkle metoder)

Konklusjon

Denne artikkelen viste deg hvordan du fjerner uteliggere i Excel. Jeg håper denne artikkelen har vært veldig nyttig for deg. Spør gjerne hvis du har spørsmål angåendeemne.

Hugh West er en svært erfaren Excel-trener og analytiker med over 10 års erfaring i bransjen. Han har en bachelorgrad i regnskap og finans og en mastergrad i bedriftsøkonomi. Hugh har en lidenskap for undervisning og har utviklet en unik undervisningstilnærming som er enkel å følge og forstå. Hans ekspertkunnskap om Excel har hjulpet tusenvis av studenter og fagfolk over hele verden med å forbedre sine ferdigheter og utmerke seg i karrieren. Gjennom bloggen sin deler Hugh sin kunnskap med verden, og tilbyr gratis Excel-opplæringer og nettbasert opplæring for å hjelpe enkeltpersoner og bedrifter å nå sitt fulle potensial.