Hur man tar bort outliers i Excel (3 sätt)

  • Dela Detta
Hugh West

Att hitta outliers och ta bort dem är en mycket vanlig uppgift för att analysera data inom statistik, datautvinning, maskininlärning etc. Det finns så många sätt att hitta outliers i ditt dataset, men processen för att ta bort dem är inte så lätt att hitta. I den här artikeln kommer vi att visa dig hur du kan ta bort outliers i Excel .

Ladda ner arbetsboken

Du kan ladda ner den kostnadsfria Excel-arbetsboken för övningar här.

Ta bort outliers.xlsx

Vad är outliers i Excel?

En Utfall är ett värde som ligger långt ifrån medelvärdet eller medianvärdet i en datauppsättning. Med andra ord är outliers värden som är betydligt högre eller lägre än resten av värdena i en datauppsättning.

Tänk dig en cricketmatch där alla slagmän gjorde runt 50 poäng, men bara en slagman gjorde ett århundrade (100) och en annan slagman blev utslagen vid 0. Dessa 100 och 0 poäng är de avvikande resultaten i denna match.

Uttalare är problematiska eftersom de kan snedvrida resultatet av dataanalysen och leda till missvisande resultat. Det är därför bättre att hitta utfallare och ta bort dem för att få ett jämnt dataset.

3 sätt att ta bort outliers i Excel

I det här avsnittet får du lära dig hur du ta bort outliers från ditt dataset på tre olika sätt. Att ta bort outliers är en komplicerad process, så läs hela artikeln noga.

1. Använd Excel-funktionen för att beräkna genomsnittet utan outliers

Excel TRIMMEAN-funktionen kan användas för att beräkna genomsnittet för en given datamängd och samtidigt utesluta avvikande värden. De datapunkter som ska uteslutas anges som en procentsats. Det procentuella värdet kan anges i decimalformat eller procentformat.

Syntaxen för att beräkna medelvärdet utan outliers är,

=TRIMMEAN(array, procent)

Här,

  • matris = Uppgiftsområde för att trimma och beräkna genomsnittsresultatet
  • procent = Antalet datapunkter som ska uteslutas

Låt oss se hur man implementerar denna funktion för att beräkna resultat med borttagna outliers.

Tänk på bilden ovan. Vi har uppgifter från Cell B5 till B14 Här ligger de flesta siffrorna mellan 20 och 27, men två värden - 0 och 100 - ligger långt ifrån dessa värden. Så detta är de utflyktingar i vårt dataset.

Formeln för att beräkna medelvärdet (genomsnittet) utan outlier-värdena i Excel för vårt dataset är följande TRIMMEAN funktionen är,

= TRIMMEAN(B5:B14,0.2)

Här,

  • B5:B14 = Uppgiftsområde för att trimma och beräkna genomsnittsresultatet
  • 0.2 (eller 20 %) = Antalet datapunkter som ska uteslutas.

Om något tal i datasetet ligger 20 % utanför resten av datasetet, kallas det talet för outliers.

Om du skriver formeln i enlighet med ditt dataset och trycker på Gå in på får du beräknat medelvärde utan outliers för ditt dataset. I vårt fall, Cell E6 innehåller det beräknade medelvärdet, som är 23.50 .

För att kontrollera om svaret är korrekt eller inte kör vi Funktionen AVERAGE (medelvärde) Cell E5 som returnerar genomsnittet ( 28.80 ) av alla värden i intervallet B5:B14 . Och i Cell E7 , kör vi en annan MEDELVÄRDE funktionen genom att manuellt ange alla celler utom de som innehåller värden för outliers, och fick ett resultat på 23.50 som resultat.

Vi kan alltså säga att TRIMMEAN funktionen kan framgångsrikt ta bort outliers från ett givet dataset när man beräknar genomsnittet i Excel.

Läs mer: Hur man rensar en formel i Excel (7+ metoder)

2. Ta bort outliers från datamängder och linjediagram i Excel

Observera följande bild. Vi har några data som vi har skapat ett linjediagram utifrån. Från linjediagrammet kan vi lätt se att i Datapunkterna 4 och 8 är våra outliers. .

Nu ska vi se hur vi kan jämna ut linjediagrammet genom att ta bort avvikande värden från datasetet.

I en annan cell (i vårt fall är det Cell H6 ), skriv följande formel,

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Här,

  • C6 = Cell som innehåller de första uppgifterna i datasetet.
  • C5 = Cell ovanför den första datacellen
  • C7 = Cell under den första datacellen
  • $E$6 = Skillnaden mellan datapunkterna.

När vi tittar på våra data verkar det som om när en datapunkt är skilja 10 enheter från andra, betecknas som en Utfall Så vi har lagt in 10 Cell E6 och göra det till en Absolut cellreferens så att denna cell kommer att vara fixerad när du skannar och beräknar hela datamängden.

Efter att ha tryckt på Gå in på Du kan se att de första uppgifterna fortfarande visas i resultatcellen. H6 Allt du behövde göra här är att konstruera formeln så att vi kan dra den Handtag för fyllning för att tillämpa formeln på resten av cellerna.

Dra nu raden nedåt med Handtag för fyllning och du kommer att se att de celler som innehöll outliers nu är fyllda med #N/A .

Titta på linjediagrammet, det är nu ett utjämnat diagram utan några avvikande värden.

Fördelning av formler

=IF(

Eftersom vi kommer att jämföra värden som vi kommer att extrahera resultatet utifrån, startar vi formeln med IF tillstånd.

=IF(AND(

Vi kommer att jämföra den aktuella datapunkten med cellen ovanför och cellen nedanför. Och om båda jämförelserna är sanna är det bara då som vi visar datapunkten som resultat. Så eftersom vi behöver hantera "båda" jämförelser bör vi använda AND-funktion .

=IF(AND(ABS(

När vi subtraherar datapunkter kan vissa data ge negativa värden. Och vi vill inte hantera negativa värden eftersom negativa värden alltid strider mot villkoret att "ta bort data när skillnaden är 10". Så för att se till att vi alltid får positiva resultat måste vi linda in jämförelserna i en Funktion för absolut värde .

=IF(AND(ABS(C6-C5)>$E$6)

Här har vi påbörjat vår första jämförelse. Vi subtraherar helt enkelt det aktuella värdet med värdet ovanför och ser om resultatet är större än skillnaden som är lagrad i Cell E6 och gjorde cellen till en Absolut referens för att hålla cellvärdet låst.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)

Därefter kommer den andra delen av jämförelsen, som skiljs åt med ett kommatecken, och jämför den aktuella datapunkten med nästa datapunkt.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()

Nu sätter vi ett kommatecken och bestämmer oss för att sätta NA-funktion där om både den ena och den andra OCH funktioner är sanna.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Och om den OCH funktionen inte är sann, vill vi återge den faktiska datapunkten som IF Falskt värde. Så vi skriver ett kommatecken och skickar cellreferensnumret. C6 där.

Läs mer: Hur du tar bort datavalidering i Excel (5 sätt)

Liknande läsningar

  • Hur man tar bort en rubrik i Excel (4 metoder)
  • Ta bort streckade linjer i Excel (5 snabba sätt)
  • Hur man tar bort rutnätet från Excel (6 enkla metoder)
  • Ta bort ramar i Excel (4 snabba sätt)
  • Hur du tar bort kompatibilitetsläget i Excel (2 enkla sätt)

3. Ta bort outliers manuellt i Excel

Ett annat enkelt sätt att eliminera outliers i Excel är att sortera värdena i datasetet och manuellt ta bort de översta och nedersta värdena.

Sortera data,

  • Välj datamängden.
  • Gå till Sortera & Filtrera i den Redigering av grupp och välj antingen Sortera från minsta till största eller . Sortera från störst till minst .

  • I vårt fall valde vi följande Sortera från minsta till största Den sorterade siffrorna i vårt dataset i stigande ordning, med de minsta siffrorna överst och de största längst ner.

Ta nu bara bort dessa data manuellt för att göra datasetet fritt från avvikande värden.

Vi rekommenderar inte att du följer den här processen när du arbetar med en stor datamängd. När din datamängd är liten och lättare att visa kan du bara tillämpa det här förfarandet, annars ska du inte tillämpa det här.

Läs mer: Hur man tar bort sortering i Excel (3 enkla metoder)

Slutsats

I den här artikeln fick du veta hur du kan ta bort avvikande värden i Excel. Jag hoppas att den här artikeln har varit till stor nytta för dig. Fråga gärna om du har några frågor om ämnet.

Hugh West är en mycket erfaren Excel-tränare och analytiker med över 10 års erfarenhet i branschen. Han har en kandidatexamen i redovisning och ekonomi och en magisterexamen i företagsekonomi. Hugh har en passion för undervisning och har utvecklat ett unikt undervisningssätt som är lätt att följa och förstå. Hans expertkunskap om Excel har hjälpt tusentals studenter och yrkesverksamma över hela världen att förbättra sina färdigheter och utmärka sig i sina karriärer. Genom sin blogg delar Hugh med sig av sin kunskap med världen, och erbjuder gratis Excel-handledning och onlineutbildning för att hjälpa individer och företag att nå sin fulla potential.