Indholdsfortegnelse
At finde outliers og fjerne dem er en meget almindelig opgave at analysere data i statistik, datamining, maskinlæring osv. Der er så mange måder, hvorpå du kan finde outliers i dit datasæt, men processen til at fjerne dem er ikke så let at finde. I denne artikel vil vi vise dig, hvordan du kan fjerne outliers i Excel .
Download arbejdsbog
Du kan downloade den gratis Excel-arbejdsbog til øvelser her.
Fjern outliers.xlsxHvad er outliers i Excel?
En udbryder er en værdi, der ligger langt fra middelværdien eller medianværdien i et datasæt. Med andre ord er outliers værdier, der er betydeligt højere eller lavere end resten af værdierne i et datasæt.
Tænk på en cricketkamp, hvor alle slagmænd scorede omkring 50, men kun én slagmand scorede et århundrede (100), og en anden slagmand røg ud med 0. Disse 100- og 0-scoringer er de særlige tilfælde i denne kamp.
Udtræksværdier er problematiske, da de kan forvrænge resultatet af dataanalysen og give misvisende resultater. Det er derfor bedre at finde udtræksværdier og fjerne dem for at få et glat datasæt.
3 måder at fjerne outliers i Excel på
I dette afsnit lærer du, hvordan du slette outliers fra dit datasæt på 3 forskellige måder. Det er en vanskelig proces at fjerne outliers, så læs hele artiklen grundigt.
1. Udnyttelse af Excel-funktion til at beregne gennemsnit uden outliers
Excel TRIMMEAN-funktion kan bruges til at beregne gennemsnittet af et givet datasæt, idet man udelukker outliers. De datapunkter, der skal udelukkes, angives som en procentdel. Den procentvise værdi kan angives som decimalt format eller som procent.
Syntaksen til beregning af middelværdien uden outliers er,
=TRIMMEAN(array, procent)Her,
- array = Dataområde til trimning og beregning af det gennemsnitlige resultat
- procent = Antallet af datapunkter, der skal udelukkes
Lad os se, hvordan du implementerer denne funktion til at beregne resultater med fjernede outliers.
Se ovenstående billede. Vi har data fra Celle B5 til B14 Her er de fleste tal mellem 20 og 27, men to værdier - 0 og 100 - er langt fra disse værdier. Så disse er de udstikkere i vores datasæt.
For vores datasæt er formlen til beregning af middelværdien (gennemsnit) uden outlier-værdierne med Excel TRIMMEAN funktion er,
=TRIMMEAN(B5:B14,0,2)
Her,
- B5:B14 = Dataområde til trimning og beregning af det gennemsnitlige resultat
- 0.2 (eller 20 %) = Antallet af datapunkter, der skal udelukkes
Hvis et tal i datasættet ligger 20 % fra resten af datasættet, kaldes dette tal for outliers.
Hvis du skriver formlen i overensstemmelse med dit datasæt og trykker på Gå ind på , får du den beregnet gennemsnit uden outliers for dit datasæt. I vores tilfælde, Celle E6 indeholder det beregnede gennemsnit, som er 23.50 .
For at kontrollere, om svaret er korrekt eller ej, kører vi Funktion AVERAGE på Celle E5 som returnerer gennemsnittet ( 28.80 ) af alle værdier i området B5:B14 . og i Celle E7 , kører vi en anden GENNEMSNITLIG funktion ved manuelt at indtaste alle cellerne undtagen dem, der indeholder outliers-værdier, og fik et resultat på 23.50 som resultat.
Vi kan altså sige, at den TRIMMEAN funktionen kan med succes fjerne outliers fra et givet datasæt, mens gennemsnittet beregnes i Excel.
Læs mere: Sådan ryddes formel i Excel (7+ Metoder)
2. Fjern outliers fra datasæt og linjediagram i Excel
Læg mærke til følgende billede. Vi har nogle data, som vi har lavet en linjediagram på baggrund af. Af linjediagrammet kan vi nemt se, at i datapunkt 4 og 8 har vi vores outliers .
Nu skal vi se, hvordan vi kan udjævne linjediagrammet ved at fjerne de yderlige værdier fra datasættet.
I en anden celle (i vores tilfælde er det Celle H6 ), skriv følgende formel,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Her,
- C6 = Celle, der indeholder de første data i datasættet
- C5 = celle over den første datacelle
- C7 = celle under den første datacelle
- $E$6 = Forskellen mellem datapunkterne.
Når vi ser på vores data, ser det ud til, at når et datapunkt er afvige 10 enheder fra andre, betegnes som en udbryder Så vi sætter 10 på Celle E6 og gøre det til en Absolut cellehenvisning således at denne celle vil være fast, mens der scannes og beregnes i hele datasættet.
Når du har trykket på Indtast , kan du se, at de første data stadig vises i resultatcellen H6 Det eneste, du skulle gøre her, er blot at konstruere formlen, så vi kan trække den Håndtag til påfyldning for at anvende formlen på resten af cellerne.
Træk nu rækken ned med Håndtag til påfyldning og du vil se, at de celler, hvor der var outliers, nu er fyldt med #N/A .
Og se på linjediagrammet nu, det er nu en fladet graf uden nogen udestående værdier i den.
Opdeling af formler
=IF(
Da vi skal sammenligne værdier, som vi vil udtrække resultatet af, indleder vi formlen med IF tilstand.
=IF(AND(
Vi vil sammenligne det aktuelle datapunkt med cellen over og cellen under. Og hvis begge sammenligninger er sande, vil vi kun vise datapunktet som resultat. Så da vi skal håndtere "begge" sammenligninger, skal vi bruge AND-funktion .
=IF(AND(ABS(
Når vi subtraherer datapunkter, kan nogle data give negative værdier. Og vi ønsker ikke at håndtere negative værdier, da negative værdier altid vil være i modstrid med betingelsen om "at fjerne data, når forskellen er 10". Så for at sikre, at vi altid får positive resultater, skal vi pakke sammenligningerne ind i en Absolutværdifunktion .
=IF(AND(ABS(C6-C5)>$E$6
Her har vi startet vores første sammenligning. Vi trækker simpelthen den aktuelle værdi fra den ovenstående værdi og ser, om resultatet er større end det differenceniveau, der er gemt i Celle E6 og gjorde cellen til en Absolut reference for at holde celleværdien låst.
=IF(AND(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)
Dernæst den anden del af sammenligningen, som er adskilt af et komma. Den sammenligner det aktuelle datapunkt med det næste datapunkt.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Nu sætter vi et komma og bestemmer at sætte NA-funktion deri, hvis både den OG funktioner er sande.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Og hvis den OG funktionen ikke er sand, så ønsker vi at returnere det faktiske datapunkt som IF Falsk værdi. Så vi skriver et komma og overfører cellereferencenummeret C6 derinde.
Læs mere: Sådan fjerner du datavalidering i Excel (5 måder)
Lignende læsninger
- Sådan fjerner du en overskrift i Excel (4 metoder)
- Fjern stiplede linjer i Excel (5 hurtige måder)
- Sådan fjerner du gitter fra Excel (6 nemme metoder)
- Fjern rammer i Excel (4 hurtige måder)
- Sådan fjerner du kompatibilitetstilstand i Excel (2 nemme måder)
3. Fjern outliers manuelt i Excel
En anden nem måde at fjerne outliers i Excel på er ved at sortere værdierne i dit datasæt og manuelt slette de øverste og nederste værdier fra det.
Sådan sorterer du dataene,
- Vælg datasættet.
- Gå til Sortere & Filtrere i den Redigering af gruppe og vælge enten Sortere fra mindste til største eller Sortere fra størst til mindst .
- I vores tilfælde valgte vi Sortere fra mindste til største Den sorterede tallene i vores datasæt i stigende rækkefølge, idet de mindste tal blev placeret øverst og de største nederst.
Nu skal du blot slette disse data manuelt for at gøre datasættet frit for udestående værdier.
Vi anbefaler ikke at følge denne proces, når du arbejder med et stort datasæt. Når dit datasæt er lille og lettere at se, kan du kun anvende denne procedure, ellers skal du ikke implementere den.
Læs mere: Sådan fjerner du sortering i Excel (3 nemme metoder)
Konklusion
Denne artikel viste dig, hvordan du kan fjerne outliers i Excel. Jeg håber, at denne artikel har været til stor gavn for dig. Du er velkommen til at spørge, hvis du har spørgsmål til emnet.