Inhoudsopgave
Het kan nodig zijn uitschieters te identificeren om statistische berekeningen uit te voeren op gegevens uit een dataset. U kunt uitschieters uit enorme datasets op verschillende manieren ontdekken met Microsoft Excel. In dit bericht laten we u zien hoe u uitschieters kunt berekenen in Microsoft Excel op vijf verschillende manieren.
Download Praktijk Werkboek
U kunt de gratis Excel-werkmap hier downloaden en zelf oefenen.
Uitschieters vinden.xlsx5 handige manieren om uitschieters te berekenen in Excel
Outliers zijn gegevenswaarden die sterk verschillen van de rest van de gegevenswaarden in de dataset. Uitschieters zijn met andere woorden buitengewone waarden. Ze zijn ofwel uitzonderlijk hoog of overdreven laag in vergelijking met andere waarden in een gegevensreeks. Uitschieters vinden is van vitaal belang bij statistische berekeningen aangezien zij van invloed zijn op de bevindingen van onze gegevensanalyse.
U hebt bijvoorbeeld een gegevensverzameling met het dagelijks inkomen van twaalf personen. Nu moet u de uitschieters berekenen met Microsoft Excel. Hier laat ik u vijf eenvoudige benaderingen zien om dat te doen.
1. Gebruik Sorteren en filteren om uitschieters te berekenen in Excel
U kunt uitschieters berekenen uit een kleine gegevensverzameling door gebruik te maken van de Sorteren en filteren Indien u uitschieters wilt berekenen met de sorteer- en filterfunctie, kunt u dat doen door onderstaande stappen te volgen.
Stap 1:
- Selecteer eerst de kolomkop in uw dataset van excel die u wilt sorteren. Bijvoorbeeld, in de gegeven dataset, in het bestand kolomkop met de naam Dagelijks inkomen (Cel C40 wordt gekozen).
Stap 2:
- Druk vervolgens op de Home tabblad op het lint en ga naar de Bewerken van groep.
Stap 3:
- Daarna, in de Groep bewerken klik op de Sorteren en filteren commando en klik op de Aangepaste Sorteer .
Stap 4:
- Dan verschijnt er een nieuw dialoogvenster met de naam Sorteer wordt geopend. Selecteer in het verschenen dialoogvenster Dagelijks Inkomen in de Sorteren op drop-down en Van klein naar groot in de Order drop-down. Klik daarna op OK .
Stap 5:
- Tot slot Dagelijks inkomen kolom wordt gesorteerd op de aangegeven manier, met de laagste waarden bovenaan en de hoogste waarden onderaan. Zoek na het uitvoeren van de procedure naar eventuele onregelmatigheden in het gegevensbereik om uitbijters te bepalen.
Zo zijn de eerste twee waarden in de kolom aanzienlijk lager en de laatste twee waarden in de kolom aanzienlijk hoger dan de rest van de waarden in de gegevensreeks, zoals blijkt uit het bovenstaande resultaat.
Lees meer: Uitschieters vinden in regressieanalyse in Excel (3 eenvoudige manieren)
2. Kwartaalfunctie toepassen om uitschieters te berekenen in Excel
De QUARTILE-functie benadering is een meer wetenschappelijke manier om uitschieters te berekenen in Excel. U kunt deze functie gebruiken om uw gegevensverzamelingen in vier gelijke porties te verdelen. De volgende waarden worden teruggegeven door de functie QUARTILE :
- De minimum waarde.
- De 1e kwartiel (Q1 - laagste 25% van een bepaalde dataset).
- De 2e kwartiel (Q2-een na laagste 25% van de dataset).
- De 3e kwartiel (Q3 - tweede hoogste 25% van de dataset).
- De maximaal waarde.
De syntaxis van de functie QUARTILE in Excel is:
=QUARTILE(array,quart)
De syntaxis bevat de volgende argumenten:
- a rray : het celbereik van een gegeven gegevensset waarvoor u de kwartielwaarde gaat berekenen.
- kwart: Dit specificeert welke waarde moet worden teruggegeven.
Voor het berekenen van de uitschieters voor de bovenstaande dataset met behulp van de functie QUARTILE, volg de onderstaande stappen.
Stap 1:
- Typ eerst de volgende formule voor het bepalen van de 1e kwartiel ( Q1 ) wordt hieronder gegeven.
=KWARTIEL($C$5:$C$16,1)
Stap 2:
- Ook hier is de formule om de 3e kwartiel ( Q3 ) wordt hieronder gegeven.
=KWARTIEL($C$5:$C$16,3)
Stap 3:
- Ten derde moet u de IQR, die de Interkwartielbereik (het vertegenwoordigt 50% van de gegeven gegevens van een reeks gegevens die in het eerste en derde kwartiel vallen) door het aftrekken van Q1 (in cel G4 ) van Q3 (in cel G5 Voer de volgende formule in om de aftrekking te berekenen.
=G5-G4
Stap 4:
- Na het vinden van IQR, Vervolgens moet je de bovenste en lager Omdat de bovenste en lager grens de meeste gegevens binnen de gegevensverzameling zou bevatten. Schrijf de volgende formule op om de bovengrens te berekenen.
=G5+(1,5*G6)
Stap 5:
- Schrijf vervolgens, om de ondergrens te berekenen, de volgende formule op.
=G4-(1.5*G6)
Stap 6:
- Ten slotte kunt u na de vorige stap voor elke gegevenswaarde uitbijters bepalen. Typ in het excel-werkblad de volgende formule met de OR-functie in de cel D5 .
=OR(C5$G$7)
- Deze formule zal helpen om de gegevens te identificeren die niet binnen de bovengenoemde bereiklimiet vallen. Na verwerking zal de formule een TRUE Verklaring als de specifieke gegevens een uitschieter zijn en FALSE als dat niet zo is. Dubbelklik op op de AutoFill gereedschap in cel C5 om te kopiëren de formule naar de rest van de cellen in kolom C Zo kunt u naast alle uitschieters in uw dataset een Waar-waarde waarnemen.
3. Combineer de functies AVERAGE en STDEV.P om uitbijters te berekenen op basis van gemiddelde en standaardafwijking.
A standaardafwijking (of σ ) is een metriek om te bepalen hoe verdeeld de gegevens zijn ten opzichte van de gemiddelde waarde van de hele gegevensverzameling. Gegevens zijn gegroepeerd rond het gemiddelde wanneer de standaarddeviatie laag is, terwijl gegevens meer verspreid zijn wanneer de standaarddeviatie hoog is. Om uitschieters te berekenen met behulp van het Gemiddelde en Standaardafwijking kunt u de volgende stappen volgen.
Stap 1:
- Gebruik eerst dezelfde dataset als aan het begin van dit artikel en bereken vervolgens het gemiddelde en de standaardafwijking. Om het gemiddelde te berekenen, typt u de volgende formule met de functie AVERAGE in de cel G5 .
=GEMIDDELDE(C5:C16)
Stap 2:
- Om de standaardafwijking te berekenen, vult u de volgende formule in met de functie STDEV.P in de cel G6 .
=STDEV.P(C5:C16)
Stap 3:
- Vervolgens berekent u de bovengrens voor verdere vooruitgang in het proces. In cel G7 bereken de ondergrens met de volgende formule.
=G5-(1.25*G6)
Stap 4:
- En in de cel G8 bereken de bovengrens aan de hand van de volgende formule
=G5+(1,5*G6)
Stap 5:
- Om daarna te berekenen of er uitschieters zijn of niet, typt u de volgende formule in de cel D5 .
=OR(C5$G$8)
- De formule zal dus een WARE waarde als de specifieke gegevens in de gewenste cel een uitschieter zijn en FALSE.
- Dubbelklik op op de AutoFill gereedschap in cel D5 om de formule te kopiëren naar de rest van de cellen in kolom D Zo kunt u alle resterende uitschieters in uw dataset opsporen.
Lees meer: Uitschieters vinden met standaardafwijking in Excel (met snelle stappen)
4. Z-Score invoegen om uitschieters te berekenen in Excel
De Z-score is een van de meest gebruikte metrieken voor het identificeren van uitschieters. Deze methode laat zien hoe ver een bepaald gegeven verwijderd is van het gemiddelde van een dataset ten opzichte van de standaarddeviatie. Om uitschieters te berekenen met behulp van Z-score in Excel ziet u de hieronder beschreven stappen.
Stap 1:
- Neem eerst de gewenste dataset.
Stap 2:
- Ten tweede, in cel H5, de volgende formule voor de berekening van de gemiddelde voor de gegeven gegevens.
=GEMIDDELDE(C5:C16)
Stap 3:
- Ten derde, bereken de standaardafwijking van de gegeven dataset in cel H6 met behulp van de volgende formule.
=STDEV.P(C5:C16)
Stap 4:
- Daarna moet u de Z -score voor elke gegevenswaarde. Hiervoor gebruikt u de onderstaande formule.
=(C5-$H$5)/$H$6
Stap 5:
- Na het berekenen van alle Z-waarden, zult u zien dat het bereik van Z-waarden ligt tussen -1.44 en 13 Wij beschouwen dus waarden van Z-score minder dan -1,2 of meer dan +1.8 voor de uitschieters.
- Typ vervolgens de volgende formule in cel E 5 .
=OR((D51.8))
- Tenslotte zal de formule een WARE waarde als de specifieke gegevens een uitbijter zijn en zal terugkeren FALSE
- Dubbelklik op op cel E5 om de AutoFill gereedschap vulgreep om de formule te kopiëren naar de rest van de cellen in kolom E Zo vindt u alle resterende uitschieters in uw dataset.
Lees meer: Hoe uitschieters te vinden met behulp van Z Score in Excel (met snelle stappen)
5. Functies GROOT en KLEIN samenvoegen om uitschieters te vinden in Excel
De functie LARGE en de KLEINE functie in Excel hebben tegengestelde bewerkingen. We zullen deze gebruiken om respectievelijk de grootste en de kleinste gegevens of waarden in een gegevensreeks te vinden. Deze functie zal alle gegevens binnen een gegevensreeks trekken en de kleinste en de grootste getallen vinden. Ze kunnen de op een na kleinste of grootste, de op twee na grootste of kleinste, enzovoort vinden.
Stap 1:
- Gebruik eerst de volgende formule in cel E5 met de functie LARGE .
=LARGE($C$5:$C$16,1)
- Dus van 12 waarden, zie je de 1e grootste waarde die 780 .
Stap 2:
- Daarna, in cel G5 Schrijf de volgende formule op om de kleinste waarde te vinden.
=SMALL($C$5:$C$16,1)
- Tot slot, van 12 waarden, kunt u de 1e kleinste waarde 110 .
- Zodra u alle vereiste waarden hebt gevonden, kunt u gemakkelijk eventuele uitschieters in de dataset aanwijzen.
Conclusie
Dat is het einde van dit artikel. Ik hoop dat u dit artikel nuttig vindt. Na het lezen van dit artikel zult u in staat zijn om uitschieters te berekenen in Excel met behulp van een van de methoden. Deel eventuele verdere vragen of aanbevelingen met ons in het commentaarveld hieronder.