Inhoudsopgave
Uitschieters vinden en ze verwijderen is een zeer gebruikelijke taak om gegevens te analyseren in de statistiek, datamining, machinaal leren, enz. Er zijn zoveel manieren waarop u uitschieters kunt vinden in uw dataset, maar het proces om ze te verwijderen is niet zo eenvoudig. In dit artikel laten we u zien hoe u uitschieters verwijderen in Excel .
Werkboek downloaden
U kunt de gratis oefen Excel-werkmap hier downloaden.
Uitschieters verwijderen.xlsxWat zijn uitschieters in Excel?
Een uitschieter is een waarde die ver afwijkt van het gemiddelde of de mediaan van een dataset. Met andere woorden, uitschieters zijn waarden die aanzienlijk hoger of lager zijn dan de rest van de waarden in een dataset.
Denk aan een cricketwedstrijd waar alle slagmannen rond de 50 scoorden, maar slechts één slagman een century scoorde (100) en een andere slagman uitging bij 0. Die 100 en 0 scores zijn de uitschieters in deze wedstrijd.
Uitschieters zijn problematisch omdat zij het resultaat van de gegevensanalyse kunnen scheeftrekken en misleidende resultaten kunnen opleveren. Het is dus beter uitschieters te vinden en te verwijderen om een gladde dataset te krijgen.
3 manieren om uitschieters in Excel te verwijderen
In dit deel leert u hoe u uitschieters verwijderen Uitschieters verwijderen is een lastig proces, dus lees het hele artikel aandachtig door.
1. Excel-functie gebruiken om gemiddelde zonder uitschieters te berekenen
Excel TRIMMEAN-functie kan worden gebruikt om het gemiddelde van een gegeven dataset te berekenen en daarbij uitschieters uit te sluiten. De uit te sluiten datapunten worden als percentage opgegeven. De procentuele waarde kan worden ingevoerd als decimaal formaat of als percentage.
De syntaxis om het gemiddelde zonder uitschieters te berekenen is,
=TRIMMEAN(array, procent)Hier,
- array = Bereik van gegevens om bij te snijden en het gemiddelde resultaat te berekenen
- procent = Het aantal uit te sluiten datapunten
Laten we eens kijken hoe we deze functie kunnen gebruiken om resultaten te berekenen met verwijderde uitschieters.
Beschouw het bovenstaande beeld. We hebben gegevens van Cel B5 tot B14 Hier liggen de meeste getallen tussen 20 en 27, maar twee waarden - 0 en 100 - zijn ver verwijderd van die waarden. Dus dit zijn de uitschieters in onze dataset.
Voor onze dataset is de formule om het gemiddelde te berekenen zonder de uitschieters met Excel TRIMMEAN functie is,
=TRIMMEAN(B5:B14,0.2)
Hier,
- B5:B14 = Bereik van gegevens om bij te snijden en het gemiddelde resultaat te berekenen
- 0.2 (of 20%) = het aantal uit te sluiten datapunten
Als een getal in de dataset 20% afwijkt van de rest van de dataset, dan wordt dat getal een uitschieter genoemd.
Als u de formule schrijft volgens uw dataset en op Ga naar krijg je de berekend gemiddelde zonder uitschieters voor uw dataset. In ons geval, Cel E6 houdt het berekende gemiddelde dat 23.50 .
Om te controleren of het antwoord juist is of niet, draaien we de Gemiddelde functie in Cel E5 die het gemiddelde teruggeeft ( 28.80 ) van alle waarden in het bereik B5:B14 En in Cel E7 dan draaien we een andere GEMIDDELD functie door handmatig alle cellen in te voeren behalve die met de waarden van de uitschieters, en kreeg een resultaat van 23.50 als resultaat.
We kunnen dus zeggen dat de TRIMMEAN functie kan met succes uitschieters verwijderen uit een gegeven dataset terwijl het gemiddelde in Excel wordt berekend.
Lees meer: Hoe Formule wissen in Excel (7+ Methodes)
2. Uitschieters verwijderen uit dataset en lijngrafiek in Excel
Zie de volgende afbeelding. We hebben een aantal gegevens op basis waarvan we een lijngrafiek hebben gemaakt. Uit de lijngrafiek kunnen we gemakkelijk zien dat in datapunten 4 en 8 hebben we onze uitschieters .
Nu zullen we zien hoe we de lijngrafiek kunnen afvlakken door de afwijkende waarden uit de dataset te verwijderen.
In een andere cel (in ons geval is dat Cel H6 ), schrijf de volgende formule,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Hier,
- C6 = Cel die de eerste gegevens van de dataset bevat.
- C5 = Cel boven de eerste gegevenscel
- C7 = Cel onder de eerste gegevenscel
- $E$6 = Verschil tussen datapunten.
Als we naar onze gegevens kijken, lijkt het erop dat wanneer een gegevenspunt verschillen 10 eenheden van anderen, wordt aangeduid als een uitschieter Dus we zetten 10 in Cel E6 en maak er een Absolute celverwijzing zodat deze cel vast komt te staan tijdens het scannen en berekenen van de hele dataset.
Na het indrukken van Ga naar zie je dat de eerste gegevens nog steeds in de resultaatcel staan. H6 Alles wat je hier moest doen is, gewoon de formule construeren zodat we de Vulgreep om de formule toe te passen op de rest van de cellen.
Sleep nu de rij naar beneden met Vulgreep en u zult zien dat de cellen die de uitschieters bevatten nu gevuld zijn met #N/A .
En kijk nu naar de lijngrafiek, dit is nu een afgevlakte grafiek zonder buitenliggende waarden.
Formuleverdeling
=IF(
Omdat we waarden gaan vergelijken op basis waarvan we het resultaat zullen extraheren, starten we de formule met het ALS conditie.
=IF(AND(
We gaan het huidige gegevenspunt vergelijken met de cel erboven en de cel eronder. En als beide vergelijkingen waar zijn, alleen dan tonen we het gegevenspunt als resultaat. Dus, omdat we te maken hebben met "Beide" vergelijkingen moeten we gebruik maken van het EN-functie .
=IF(AND(ABS(
Wanneer we gegevenspunten aftrekken, kunnen sommige gegevens negatieve waarden opleveren. En we willen niet omgaan met negatieve waarden, omdat negatieve waarden altijd in tegenspraak zijn met de voorwaarde "gegevens verwijderen als het verschil 10 is". Dus om ervoor te zorgen dat we altijd positieve resultaten hebben, moeten we de vergelijkingen verpakken in een Absolute waarde functie .
=IF(AND(ABS(C6-C5)>$E$6
Hier zijn we begonnen met onze eerste vergelijking. We trekken gewoon de huidige waarde af van de waarde hierboven en kijken of het resultaat groter is dan het verschil dat is opgeslagen in Cel E6 en maakte de cel een Absolute Referentie om de celwaarde vergrendeld te houden.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)
Vervolgens het tweede deel van de vergelijking, gescheiden door een komma, dat het huidige gegevenspunt vergelijkt met het volgende gegevenspunt.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Nu zetten we een komma en bepalen we om NA functie daarin als zowel de EN functies waar zijn.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
En als de EN functie niet waar is dan willen we het werkelijke gegevenspunt als de ALS Valse waarde. Dus we typen een komma en geven het referentienummer van de cel door... C6 daarin.
Lees meer: Hoe gegevensvalidatie verwijderen in Excel (5 manieren)
Vergelijkbare lezingen
- Een koptekst verwijderen in Excel (4 methoden)
- Stippellijnen verwijderen in Excel (5 snelle manieren)
- Hoe Raster verwijderen uit Excel (6 eenvoudige methodes)
- Randen verwijderen in Excel (4 snelle manieren)
- Compatibiliteitsmodus verwijderen in Excel (2 eenvoudige manieren)
3. Uitschieters handmatig verwijderen in Excel
Een andere gemakkelijke manier om uitschieters te elimineren in Excel is, gewoon de waarden van uw dataset sorteren en handmatig de bovenste en onderste waarden eruit verwijderen.
Om de gegevens te sorteren,
- Selecteer de dataset.
- Ga naar Sorteren en filteren in de Bewerken van groep en kies ofwel Van klein naar groot sorteren of Van groot naar klein sorteren .
- In ons geval hebben wij gekozen voor Van klein naar groot sorteren Het sorteert de getallen in onze dataset in oplopende volgorde, met de kleinste bovenaan en de grootste onderaan.
Verwijder die gegevens nu gewoon handmatig om de dataset buitenliggende waarden vrij te maken.
Wij raden niet aan deze procedure te volgen als u met een grote dataset werkt. Als uw dataset klein en gemakkelijker te bekijken is, kunt u deze procedure pas toepassen, anders niet.
Lees meer: Sorteren in Excel verwijderen (3 eenvoudige methodes)
Conclusie
Dit artikel liet zien hoe je uitschieters verwijderen Ik hoop dat dit artikel nuttig voor u is geweest. Voel u vrij om vragen te stellen als u vragen heeft over het onderwerp.