Sådan finder du outliers ved hjælp af Z Score i Excel (med hurtige trin)

  • Del Dette
Hugh West

I statistiske sandsynlighedsberegninger er z-score af primær betydning. Datafordelinger og outliers i et datasæt kan bestemmes med dette udtryk. Det er muligt at bestemme dem manuelt ud fra et datasæt. Hvis du har et større datasæt, er der flere værktøjer til din rådighed. Excel er et af dem. Hvis du leder efter nogle specielle tricks til at finde outliers ved hjælp af z-score i Excel,er du kommet til det rette sted. Denne artikel vil diskutere hvert trin i metoden til at finde outliers ved hjælp af z-scoren. Lad os følge den komplette vejledning for at lære alt dette.

Download arbejdsbog til øvelser

Download denne arbejdsbog til øvelse, mens du læser denne artikel. Den indeholder alle datasættene i forskellige regneark, så du får en klar forståelse. Prøv dig selv, mens du gennemgår processen trin for trin.

Find outliers ved hjælp af Z Score.xlsx

Hvad er Z-score?

I statistik repræsenterer z-scoren standardafvigelsen fra populationen for et bestemt datapunkt. Dette mål fortæller os, hvor langt en bestemt værdi er fra gennemsnittet af et sæt i forhold til dets standardafvigelse (standardafvigelsen er RMS-værdien af alle de forskellige punkter og middelværdien). Den matematiske formel for z-scoren er

Hvor,

Z = z-score

X = observeret værdi

= middelværdi

σ = standardafvigelse

Hvad er en outlier?

Outliers er værdier, der adskiller sig markant fra andre værdier i et datasæt. En anden måde at sige det på er, at en outlier er en værdi, der er meget højere eller lavere end datasættets gennemsnit og median. I en Excel-graf kan du betragte de datapunkter, der ligger langt fra de andre datapunkter, som outliers. For eksempel kan du overveje et scenarie, hvor du har en samlet pointscore på 5forskellige spillere i NBA-sæsonen. De opnåede point er 1600, 1400, 300 og 1500. Hvis du nu tegner en graf i Excel, vil du se, at punkt 300 ligger langt fra de andre. Så i dette tilfælde er 3000 en outlier.

En outlier anses for at være en z-scoreværdi inden for intervallet 3 til -3 fordi disse værdier ligger ret langt fra middelværdien.

Trin-for-trin procedure til at finde outliers ved hjælp af Z Score i Excel

I det følgende afsnit vil vi bruge en effektiv og vanskelig metode til at finde outliers ved hjælp af z-score i Excel. Vi vil bestemme stikprøvens z-score ved at beregne middelværdien og standardafvigelserne for alle tal. Derefter vil vi finde outliers for hver observation. Dette afsnit indeholder omfattende detaljer om denne metode. Du bør lære og anvende alle disse for at forbedre dintænkeevne og Excel-kendskab. Vi bruger den Microsoft Office 365 version her, men du kan bruge en hvilken som helst anden version efter eget ønske.

Trin 1: Beregn datasættets gennemsnit

I begyndelsen skal vi finde datasættets gennemsnit. Dette vil være nyttigt for at bestemme standardafvigelsen og z-scoren. Her bruger vi funktionen AVERAGE til at bestemme observationens gennemsnit. Denne funktion modtager en række argumenter eller et interval af værdier og returnerer deres gennemsnit. Lad os gennemgå trinene til beregning af datasættets gennemsnit.

  • Først og fremmest skal du vælge området med cellerne og skrive følgende formel i celle H4 .

=GENNEMSNIT(C5:C20)

  • Derefter skal du trykke på Gå ind på .
  • Som følge heraf får du middelværdien af alle dataene.

Læs mere: Sådan finder du outliers med standardafvigelse i Excel (med hurtige trin)

Trin 2: Estimer standardafvigelse

Nu skal vi estimere standardafvigelsen. Vi bruger funktionen STDEV.P for at bestemme standardafvigelserne for datasættet. Denne funktion returnerer standardafvigelsen fra en række tal eller et interval af værdier, som den tager som argumenter. Lad os gennemgå trinene for at estimere standardafvigelsen.

  • Først og fremmest skal du vælge området med cellerne og skrive følgende formel i celle H5 .

=STDEV.P(C5:C20)

  • Derefter skal du trykke på Indtast .
  • Som følge heraf får du værdien af standardafvigelsen for alle dataene.

Læs mere: Sådan beregner du outliers i Excel (5 nemme måder)

Trin 3: Vurdering af Z-score

Nu skal vi evaluere z-scoren. For at bestemme z-scoren for værdierne skal vi først og fremmest bestemme forskellen mellem værdien og gennemsnittet og derefter dividere den med standardafvigelsen i henhold til formlen. Lad os gennemgå trinene for at estimere z-scoren.

  • For at evaluere z-scoren skal du først og fremmest skrive følgende formel i celle D5 .

=(C5-$H$4)/$H$5

  • Derefter skal du trykke på Indtast .
  • Resultatet er, at du får z-scoren for den første værdi i datasættet.

  • Træk derefter den Håndtag til påfyldning ikonet for at udfylde resten af cellerne i kolonnen med formlen.
  • Som følge heraf får du z-scoren for alle poster i datasættet.

  • I vores datasæt er gennemsnitsværdien 113.875 og standardafvigelsen er 100.21 Hvis vi nu betragter den specifikke værdi af $79 , z-scoren for denne værdi er -0.347 hvilket betyder $79 er 0.347 standardafvigelser under middelværdien eller gennemsnitsværdien.
  • I et andet tilfælde, når værdien er $500 , får vi z-scoren er 3.85 . Det betyder $500 er 3.85 standardafvigelser over middelværdien.

Læs mere: Sådan finder du outliers i regressionsanalyse i Excel (3 nemme måder)

Trin 4: Find outliers fra datasættet

Nu skal vi finde udbrydere i vores datasæt. En udbryder anses for at være en z-scoreværdi inden for intervallet 3 til -3 , som nævnt ovenfor. Lad os gennemgå trinene for at finde ud af outliers i datasættet. Her vil vi bruge OR-funktionen for at finde ud af, om værdierne i datasættet indeholder outliers eller ej. Hvis nogen af værdierne inden for intervallet opfylder betingelsen, bliver resultatet SANDT.

  • For at finde outliers skal du først og fremmest skrive følgende formel i celle E5 .

=OR((D53))

  • Derefter skal du trykke på Gå ind på .
  • Som et resultat heraf finder du ud af, om den første værdi indeholder outliers eller ej i datasættet.

  • Træk derefter den Håndtag til påfyldning ikonet for at udfylde resten af cellerne i kolonnen med formlen.
  • Som følge heraf vil du kunne se, om værdierne i datasættet indeholder outliers eller ej, som vist nedenfor.

Fra ovenstående datasæt kan vi se, at kun ét id's z-score er over værdien 3. Derfor får vi kun én udbryder.

Nu vil vi vise udslag ved hjælp af en Spredning diagram. Vi skal følge følgende proces:

  • Først skal du vælge området med cellerne C5:D20 .
  • Derefter skal du gå til Indsæt fanen. Vælg Indsæt et spredningsdiagram (X, Y) eller et boblediagram, og til sidst vælge Spredning .

  • Som følge heraf vil du få følgende diagram.

  • Hvis du vil ændre diagramstilen, skal du vælge Diagram Design og vælg derefter den ønskede Stil 9 fra Diagramstilarter gruppe.

  • Som følge heraf vil du få følgende Spredning diagram.

Læs mere: Sådan finder du outliers i Excel (5 nyttige måder)

Konklusion

Det er slutningen af dagens session. Jeg tror stærkt på, at du fra nu af kan finde outliers ved hjælp af z score i Excel. Hvis du har spørgsmål eller anbefalinger, så del dem i kommentarfeltet nedenfor.

Glem ikke at tjekke vores websted Exceldemy.com til forskellige Excel-relaterede problemer og løsninger. Bliv ved med at lære nye metoder, og bliv ved med at vokse!

Hugh West er en meget erfaren Excel-træner og analytiker med over 10 års erfaring i branchen. Han har en bachelorgrad i regnskab og finans og en kandidatgrad i Business Administration. Hugh har en passion for undervisning og har udviklet en unik undervisningstilgang, der er nem at følge og forstå. Hans ekspertviden om Excel har hjulpet tusindvis af studerende og fagfolk verden over med at forbedre deres færdigheder og udmærke sig i deres karriere. Gennem sin blog deler Hugh sin viden med verden og tilbyder gratis Excel-tutorials og onlinetræning for at hjælpe enkeltpersoner og virksomheder med at nå deres fulde potentiale.