Paano Mag-alis ng Mga Outlier sa Excel (3 Paraan)

  • Ibahagi Ito
Hugh West

Ang paghahanap ng mga outlier at pag-aalis sa mga ito ay isang napaka-karaniwang gawain upang pag-aralan ang data sa mga istatistika, data mining, machine learning atbp. Napakaraming paraan na makakahanap ka ng mga outlier sa iyong dataset ngunit ang proseso upang alisin ang mga ito ay hindi napakadali hanapin. Sa artikulong ito, ipapakita namin sa iyo kung paano alisin ang mga outlier sa Excel .

I-download ang Workbook

Maaari mong i-download ang libreng practice Excel workbook mula sa dito.

Alisin ang Outliers.xlsx

Ano ang Outlier sa Excel?

Isang outlier Ang ay isang value na malayo sa mean o median na value ng isang dataset. Sa madaling salita, ang mga outlier ay mga value na mas mataas o mas mababa kaysa sa iba pang value sa isang dataset.

Mag-isip ng isang laban ng kuliglig kung saan ang lahat ng mga batter ay nakakuha ng halos 50 ngunit isang batsman lang ang nakakuha ng isang siglo (100 ) at isa pang batsman ang nakalabas sa 0. Ang 100 at 0 na mga marka ay ang mga outlier sa laban na ito.

Ang mga outlier ay may problema dahil maaari nilang baluktot ang resulta ng pagsusuri ng data at magkaroon ng mga mapanlinlang na resulta. Kaya mas mainam na maghanap ng mga outlier at alisin ang mga ito para magkaroon ng maayos na dataset.

3 Paraan para Mag-alis ng Mga Outlier sa Excel

Sa seksyong ito, matututunan mo kung paano tanggalin ang mga outlier mula sa iyong dataset sa 3 magkakaibang paraan. Ang pag-alis ng mga outlier ay isang nakakalito na proseso, kaya basahin nang mabuti ang buong artikulo.

1. Paggamit ng Excel Function para Kalkulahin ang Average nang walaMaaaring gamitin ang mga Outlier

Excel TRIMMEAN function upang kalkulahin ang average ng isang ibinigay na dataset habang hindi kasama ang mga outlier. Ang mga punto ng data na ibubukod ay ibinibigay bilang isang porsyento. Ang halaga ng porsyento ay maaaring i-input bilang format ng decimal o format ng porsyento.

Ang syntax para kalkulahin ang ibig sabihin nang walang mga outlier ay,

=TRIMMEAN(array, percent)

Dito,

  • array = Saklaw ng data upang putulin at kalkulahin ang average na resulta
  • porsiyento = Ang bilang ng mga punto ng data na ibubukod

Tingnan natin kung paano ipatupad ang function na ito upang kalkulahin ang mga resulta na may mga inalis na outlier.

Isaalang-alang ang larawan sa itaas. Mayroon kaming data mula sa Cell B5 hanggang B14 . Dito karamihan sa mga numero ay nasa pagitan ng 20 hanggang 27, ngunit dalawang value – 0 at 100 – ay malayo sa mga value na iyon. Kaya ito ang mga outlier sa aming dataset.

Para sa aming dataset, ang formula para kalkulahin ang mean (average) nang walang outlier value na may Excel TRIMMEAN function ay,

=TRIMMEAN(B5:B14,0.2)

Dito,

  • B5:B14 = Saklaw ng data na i-trim at kalkulahin ang average na resulta
  • 0.2 (o 20%) = Ang bilang ng mga punto ng data na ibubukod

Kung ang anumang numero sa dataset ay bumaba nang 20% ​​mula sa natitirang bahagi ng dataset , pagkatapos ay tatawaging outlier ang numerong iyon.

Kung isusulat mo ang formula ayon sa iyong dataset at pinindot ang Enter , makukuha mo ang kinakalkulang mean nang walang mga outlier para sa iyong dataset. Sa aming kaso, hawak ng Cell E6 ang kinakalkula na mean na 23.50 .

Upang suriin kung tama ang sagot o hindi, pinapatakbo namin ang AVERAGE function sa Cell E5 na nagbabalik ng average ( 28.80 ) ng lahat ng value sa range B5:B14 . At sa Cell E7 , nagpapatakbo kami ng isa pang function na AVERAGE sa pamamagitan ng manu-manong pag-input ng lahat ng mga cell maliban sa mga mayroong mga outlier na value, at nakakuha ng return na 23.50 bilang resulta.

Kaya masasabi nating ang TRIMMEAN function ay matagumpay na makapag-alis ng mga outlier mula sa isang naibigay na dataset habang kinakalkula ang average sa Excel.

Magbasa Nang Higit Pa: Paano I-clear ang Formula sa Excel (7+ na Paraan)

2. Alisin ang Mga Outlier mula sa Dataset at Line Chart sa Excel

Pansinin ang sumusunod na larawan. Mayroon kaming ilang data batay sa kung saan gumawa kami ng line graph. Mula sa line graph, madali nating makikita na sa mga punto ng data 4 at 8 mayroon tayong mga outlier .

Ngayon ay makikita natin kung paano tayo mapapakinis out sa line chart sa pamamagitan ng pag-alis ng mga outlying value mula sa dataset.

Sa isa pang cell (sa aming kaso ito ay Cell H6 ), isulat ang sumusunod na formula,

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)

Dito,

  • C6 = Cell na may hawak ng unang data sa dataset
  • C5 = Cell sa itaas ng unang data cell
  • C7 = Cell sa ibaba ng unang data cell
  • $E$6 = Pagkakaiba sa pagitan ng mga punto ng data .

Nakatingin saang aming data, tila kapag ang isang data point ay naiiba ng 10 unit mula sa iba, ay itinalaga bilang isang outlier . Kaya't inilagay namin ang 10 sa Cell E6 at ginagawa itong Absolute Cell Reference upang maayos ang cell na ito habang nag-ii-scan at nagkalkula sa buong dataset.

Pagkatapos pindutin ang Enter , makikita mong lumalabas pa rin ang unang data sa cell ng resulta H6 . Ang kailangan mo lang gawin dito ay, para lang bumuo ng formula para ma-drag natin ang Fill Handle para ilapat ang formula sa iba pang mga cell.

Ngayon i-drag ang row pababa gamit ang Fill Handle at makikita mo ang mga cell na may hawak sa mga outlier ay puno na ngayon ng #N/A .

At tingnan ang line chart ngayon, isa na itong flattened na graph na walang anumang outlying value dito.

Breakdown ng Formula

=IF(

Habang ihahambing natin ang mga halaga batay sa kung saan natin kukunin ang resulta, sinisimulan natin ang formula gamit ang ang kondisyong IF .

=IF(AND(

Ihahambing natin ang kasalukuyang data point at ang cell sa itaas at ang cell sa ibaba . At kung ang parehong paghahambing ay totoo, pagkatapos lamang namin ipapakita ang data point bilang isang resulta. Kaya, dahil kailangan nating harapin ang "Parehong" paghahambing kaya dapat nating gamitin ang AND function .

=IF(AND(ABS(

Kapag ibinawas namin ang mga data point, maaaring maglabas ng negatibong value ang ilang data. At ginagawa namin hindinais na harapin ang mga negatibong halaga dahil ang mga negatibong halaga ay palaging sasalungat sa kondisyon ng "pag-alis ng data kapag ang pagkakaiba ay 10". Kaya para matiyak na palagi kaming may positibong resulta, kailangan naming i-wrap ang mga paghahambing sa isang Absolute value function .

=IF(AND(ABS(C6-C5)> ;$E$6

Dito namin sinimulan ang aming unang paghahambing. Ibinabawas lang namin ang kasalukuyang halaga sa halaga sa itaas at tingnan kung ang resulta ay mas malaki kaysa sa antas ng pagkakaiba na nakaimbak sa Cell E6 at ginawang Absolute Reference ang cell para panatilihing naka-lock ang cell value.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)

Susunod, ang pangalawang bahagi ng paghahambing na pinaghihiwalay ng kuwit. Ihahambing nito ang kasalukuyang punto ng data sa susunod na punto ng data.

=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()

Ngayon inilalagay namin isang kuwit at tukuyin na ilagay ang NA function doon kung pareho ang AND na function ay totoo.

=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)

At kung ang AND function ay hindi totoo kung gayon kami gustong ibalik ang aktwal na data point bilang IF False value. Kaya nag-type kami e sa isang kuwit at ipasa ang cell reference number C6 doon.

Magbasa Pa: Paano Mag-alis ng Data Validation sa Excel (5 Paraan)

Mga Katulad na Pagbasa

  • Paano Mag-alis ng Header sa Excel (4 na Paraan)
  • Alisin ang mga Dotted Lines saExcel (5 Mabilis na Paraan)
  • Paano Mag-alis ng Grid mula sa Excel (6 Madaling Paraan)
  • Alisin ang Mga Border sa Excel (4 Mabilis na Paraan)
  • Paano Mag-alis ng Compatibility Mode sa Excel (2 Madaling Paraan)

3. Manu-manong Alisin ang Mga Outlier sa Excel

Ang isa pang madaling paraan upang alisin ang mga outlier sa Excel ay, pag-uri-uriin lang ang mga value ng iyong dataset at manual na tanggalin ang mga value sa itaas at ibaba mula rito.

Upang pag-uri-uriin ang data,

  • Piliin ang dataset.
  • Pumunta sa Pagbukud-bukurin & I-filter ang sa pangkat na Pag-edit at piliin ang alinman sa Pagbukud-bukurin ang Pinakamaliit hanggang Pinakamalaki o Pagbukud-bukurin ang Pinakamalaki hanggang Pinakamaliit .

  • Sa aming kaso, pinili namin ang Pagbukud-bukurin ang Pinakamaliit hanggang Pinakamalaki . Pinagbukud-bukod nito ang mga numero sa aming dataset sa pataas na pagkakasunud-sunod, inilalagay ang pinakamaliit sa itaas at ang pinakamalaki sa ibaba.

Ngayon, manual lang na tanggalin ang data na iyon upang gawing libre ang mga nasa labas ng dataset na value.

Hindi namin inirerekumenda ang pagsunod sa prosesong ito habang nagtatrabaho sa isang malaking dataset. Kapag maliit ang iyong dataset at mas madaling tingnan, saka mo lang mailalapat ang pamamaraang ito, kung hindi, huwag itong ipatupad.

Magbasa Nang Higit Pa: Paano Mag-alis ng Pag-uuri sa Excel ( 3 Madaling Paraan)

Konklusyon

Ipinakita sa iyo ng artikulong ito kung paano alisin ang mga outlier sa Excel. Umaasa ako na ang artikulong ito ay naging lubhang kapaki-pakinabang sa iyo. Huwag mag-atubiling magtanong kung mayroon kang anumang mga katanungan tungkol sapaksa.

Si Hugh West ay isang napakaraming Excel trainer at analyst na may higit sa 10 taong karanasan sa industriya. May hawak siyang Bachelor's degree sa Accounting and Finance at Master's degree sa Business Administration. Si Hugh ay may hilig sa pagtuturo at nakabuo ng kakaibang diskarte sa pagtuturo na madaling sundin at maunawaan. Ang kanyang dalubhasang kaalaman sa Excel ay nakatulong sa libu-libong mag-aaral at propesyonal sa buong mundo na mapabuti ang kanilang mga kasanayan at maging mahusay sa kanilang mga karera. Sa pamamagitan ng kanyang blog, ibinahagi ni Hugh ang kanyang kaalaman sa mundo, nag-aalok ng mga libreng Excel tutorial at online na pagsasanay upang matulungan ang mga indibidwal at negosyo na maabot ang kanilang buong potensyal.