Სარჩევი
აღკვეთილის პოვნა და მათი ამოღება ძალზე გავრცელებული ამოცანაა მონაცემების ანალიზისთვის სტატისტიკაში, მონაცემთა მოპოვებაში, მანქანათმცოდნეობაში და ა.შ. უამრავი გზა არსებობს, რომლითაც შეგიძლიათ იპოვოთ გარე მონაცემები თქვენს მონაცემთა ბაზაში, მაგრამ მათი ამოღების პროცესი არც ისე ადვილია. იპოვე. ამ სტატიაში ჩვენ გაჩვენებთ, თუ როგორ უნდა ამოშალოთ ამონაწერები Excel-ში .
ჩამოტვირთეთ სამუშაო წიგნი
შეგიძლიათ ჩამოტვირთოთ Excel-ის სამუშაო წიგნის უფასო პრაქტიკა აქ.
წაშალეთ Outliers.xlsx
რა არის Outliers Excel-ში?
An outlier არის მნიშვნელობა, რომელიც ჩამორჩება მონაცემთა ნაკრების საშუალო ან მედიანურ მნიშვნელობას. სხვა სიტყვებით რომ ვთქვათ, outliers არის მნიშვნელობები, რომლებიც მნიშვნელოვნად აღემატება ან დაბალია, ვიდრე დანარჩენი მნიშვნელობები მონაცემთა ბაზაში.
იფიქრეთ კრიკეტის მატჩზე, სადაც ყველა ბატერმა გაიტანა დაახლოებით 50 ქულა, მაგრამ მხოლოდ ერთმა ბეტსმენმა დააგროვა საუკუნეში (100). ) და კიდევ ერთი ბეტსმენი გამოვიდა 0-ზე. ეს 100 და 0 ქულა არის ამ მატჩში.
აუცილებელი ქულები პრობლემურია, რადგან მათ შეუძლიათ დაამახინჯონ მონაცემთა ანალიზის შედეგი და გამოიწვიოს შეცდომაში შემყვანი შედეგები. ამიტომ სჯობს მოიძიოთ outliers და წაშალოთ ისინი, რათა გლუვი მონაცემთა ნაკრები გქონდეთ.
3 გზა ამოღების outliers in Excel
ამ განყოფილებაში თქვენ შეისწავლით როგორ წაშალეთ outliers თქვენი მონაცემთა ნაკრებიდან 3 სხვადასხვა გზით. გარე ნიშნების ამოღება რთული პროცესია, ამიტომ ყურადღებით წაიკითხეთ მთელი სტატია.
1. Excel ფუნქციის გამოყენება საშუალოს გამოსათვლელად გარეშეOutliers
Excel TRIMMEAN ფუნქცია შეიძლება გამოყენებულ იქნას მოცემული მონაცემთა ნაკრების საშუალოს გამოსათვლელად, ხოლო გამოკლებული. გამორიცხული მონაცემები მოწოდებულია პროცენტულად. პროცენტული მნიშვნელობა შეიძლება იყოს შეყვანილი ათობითი ფორმატის სახით ან პროცენტული ფორმატით.
სინტაქსი გამოთვლისას საშუალოს გარეშე არის,
=TRIMMEAN(მასივი, პროცენტი)აქ,
- მასივი = მონაცემების დიაპაზონი ამოსაჭრელად და საშუალო შედეგის გამოსათვლელად
- პროცენტი = გამორიცხული მონაცემთა რაოდენობა
ვნახოთ, როგორ განვახორციელოთ ეს ფუნქცია, რათა გამოვთვალოთ შედეგები ამოღებული outliers-ით.
გაითვალისწინეთ ზემოთ მოცემული სურათი. ჩვენ გვაქვს მონაცემები უჯრედიდან B5-დან B14-მდე . აქ რიცხვების უმეტესობა არის 20-დან 27-მდე, მაგრამ ორი მნიშვნელობა - 0 და 100 - შორს არის ამ მნიშვნელობებისგან. მაშასადამე, ეს არის outliers ჩვენს მონაცემთა ბაზაში.
ჩვენი მონაცემთა ნაკრებისთვის, Excel TRIMMEAN ფუნქციით გამოთვლილი საშუალო (საშუალო) ფორმულა არის,
=TRIMMEAN(B5:B14,0.2)
აქ,
- B5:B14 = მონაცემების დიაპაზონი ამოსაჭრელად და საშუალო შედეგის გამოსათვლელად
- 0.2 (ან 20%) = გამორიცხული მონაცემთა რაოდენობა
თუ მონაცემთა ნაკრებში რომელიმე რიცხვი 20%-ით ჩამორჩება მონაცემთა ნაკრების დანარჩენ ნაწილს , მაშინ ამ რიცხვს დაერქმევა outliers.
თუ დაწერთ ფორმულას თქვენი მონაცემთა ბაზის მიხედვით და დააჭერთ Enter , მიიღებთ გამოთვლილ საშუალოს outliers გარეშე. თქვენი მონაცემთა ნაკრებისთვის. ჩვენს შემთხვევაში, უჯრედში E6 ინახავს გამოთვლილ საშუალოს, რომელიც არის 23,50 .
შესამოწმებლად პასუხი სწორია თუ არა, ჩვენ ვასრულებთ AVERAGE ფუნქციას. უჯრედში E5 , რომელიც აბრუნებს ყველა მნიშვნელობის საშუალოს ( 28.80 ) დიაპაზონში B5:B14 . და უჯრედში E7 , ჩვენ ვაწარმოებთ კიდევ ერთ AVERAGE ფუნქციას ყველა უჯრედის ხელით შეყვანით, გარდა იმ უჯრედებისა, რომლებიც შეიცავს გარე მნიშვნელობებს, და შედეგად მივიღეთ დაბრუნება 23.50 .
მაშასადამე, შეგვიძლია ვთქვათ, რომ TRIMMEAN ფუნქციას შეუძლია წარმატებით წაშალოს უკიდეგანოები მოცემული მონაცემთა ნაკრებიდან Excel-ში საშუალოს გაანგარიშებისას.
წაიკითხეთ მეტი: როგორ გავასუფთავოთ ფორმულა Excel-ში (7+ მეთოდი)
2. ამოიღეთ Outliers მონაცემთა ნაკრებიდან და ხაზოვანი დიაგრამა Excel-ში
გაითვალისწინეთ შემდეგი სურათი. ჩვენ გვაქვს გარკვეული მონაცემები, რომელთა საფუძველზეც შევქმენით ხაზოვანი გრაფიკი. ხაზოვანი დიაგრამიდან ადვილად ვხედავთ, რომ მონაცემთა მე-4 და მე-8 წერტილებში ჩვენ გვაქვს ჩვენი გამოკვეთილები .
ახლა ჩვენ ვნახავთ, როგორ შეგვიძლია გავასწოროთ ამოიღეთ ხაზოვანი დიაგრამა მონაცემთა ნაკრებიდან დაშორებული მნიშვნელობების ამოღებით.
სხვა უჯრედში (ჩვენს შემთხვევაში ეს არის უჯრედი H6 ), ჩაწერეთ შემდეგი ფორმულა,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
აქ,
- C6 = უჯრედი, რომელიც ინახავს პირველ მონაცემებს მონაცემთა ნაკრებში
- C5 = უჯრედი პირველი მონაცემთა უჯრედის ზემოთ
- C7 = უჯრედი პირველი მონაცემთა უჯრედის ქვემოთ
- $E$6 = განსხვავება მონაცემთა წერტილებს შორის .
უყურებსჩვენი მონაცემები, როგორც ჩანს, როდესაც მონაცემთა წერტილი განსხვავდება 10 ერთეულით სხვებისგან, მითითებულია როგორც აღკვეთილი . ასე რომ, ჩვენ ვდებთ 10 Cell E6-ში და ვაქცევთ უჯრედის აბსოლუტურ მითითებას , ასე რომ ეს უჯრედი დაფიქსირდება სკანირებისა და მთელი მონაცემთა გაანგარიშებისას.
Enter დაჭერის შემდეგ, ხედავთ, რომ პირველი მონაცემები კვლავ გამოჩნდება შედეგის უჯრედში H6 . ყველაფერი რაც თქვენ უნდა გააკეთოთ აქ არის მხოლოდ ფორმულის აგება ისე, რომ ჩვენ შეგვიძლია ჩავავლოთ შევსების სახელური ფორმულის დანარჩენ უჯრედებზე გამოსაყენებლად.
ახლა გადაიტანეთ მწკრივი ქვევით Fill Handle და დაინახავთ, რომ უჯრედები, რომლებშიც იყო გამოკვეთილი, ახლა ივსება #N/A .
და შეხედეთ ახლავე ხაზოვან დიაგრამას, ეს არის გაბრტყელებული გრაფიკი მასში რაიმე დაშორებული მნიშვნელობების გარეშე.
ფორმულის დაშლა
=IF(
რადგან ჩვენ ვაპირებთ შევადაროთ მნიშვნელობები, რომლებზედაც ჩვენ გამოვიტანთ შედეგს, ჩვენ ვიწყებთ ფორმულას IF მდგომარეობა.
=IF(AND(
ჩვენ ვაპირებთ შევადაროთ მიმდინარე მონაცემთა წერტილი და უჯრედი ზემოთ და უჯრედი ქვემოთ და თუ ორივე შედარება მართალია, მხოლოდ ამის შემდეგ ვაჩვენებთ მონაცემთა წერტილს შედეგად. ამიტომ, რადგან ჩვენ გვჭირდება საქმე "ორივე" შედარებასთან, ამიტომ უნდა გამოვიყენოთ AND ფუნქცია .
=IF(AND(ABS(
როდესაც ვაკლებთ მონაცემთა წერტილებს, ზოგიერთმა მონაცემმა შეიძლება უარყოფითი მნიშვნელობები გამოიღოს. და ჩვენ ვაკეთებთ არაგსურთ გაუმკლავდეთ უარყოფით მნიშვნელობებს, რადგან უარყოფითი მნიშვნელობები ყოველთვის ეწინააღმდეგება პირობას „მონაცემების წაშლა, როდესაც განსხვავება 10-ია“. ასე რომ, იმისათვის, რომ დავრწმუნდეთ, რომ ყოველთვის გვაქვს დადებითი შედეგები, შედარებები უნდა ჩავატაროთ აბსოლუტური მნიშვნელობის ფუნქციაში .
=IF(AND(ABS(C6-C5)> ;$E$6
აქ დავიწყეთ ჩვენი პირველი შედარება. ჩვენ უბრალოდ გამოვაკლებთ მიმდინარე მნიშვნელობას ზემოთ მოცემულ მნიშვნელობით და ვნახოთ არის თუ არა შედეგი აღემატება Cell E6<2-ში შენახულ სხვაობის დონეს> და უჯრედი აქცია აბსოლუტურ მითითებად უჯრედის მნიშვნელობის დაბლოკვის მიზნით.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6 -C7)>$E$6)
შემდეგ, შედარების მეორე ნაწილი, რომელიც გამოყოფილია მძიმით. ის შეადარებს მიმდინარე მონაცემთა წერტილს შემდეგ მონაცემთა წერტილს.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
ახლა ვდებთ მძიმით და განსაზღვრეთ, რომ ჩასვათ NA ფუნქცია , თუ ორივე ფუნქცია AND მართალია.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
და თუ ფუნქცია AND არ არის ჭეშმარიტი, მაშინ ჩვენ გვინდა დავაბრუნოთ ფაქტობრივი მონაცემების წერტილი IF False მნიშვნელობა e მძიმით და ჩაწერეთ უჯრედის საცნობარო ნომერი C6 იქ.
წაიკითხეთ მეტი: როგორ ამოიღოთ მონაცემთა ვალიდაცია Excel-ში (5 გზა)
მსგავსი წაკითხვები
- როგორ ამოიღოთ სათაური Excel-ში (4 მეთოდი)
- ამოიღეთ წერტილოვანი ხაზებიExcel (5 სწრაფი გზა)
- როგორ წავშალოთ ბადე Excel-დან (6 მარტივი მეთოდი)
- წაშალოთ საზღვრები Excel-ში (4 სწრაფი გზა)
- როგორ წავშალოთ თავსებადობის რეჟიმი Excel-ში (2 მარტივი გზა)
3. ამოშალეთ Outliers ხელით Excel-ში
Excel-ში აცილების აღმოფხვრის კიდევ ერთი მარტივი გზაა, უბრალოდ დაალაგეთ თქვენი მონაცემთა ბაზა და ხელით წაშალეთ მისგან ზედა და ქვედა მნიშვნელობები.
დახარისხება. მონაცემები,
- აირჩიეთ მონაცემთა ნაკრები.
- გადადით დახარისხება & გაფილტრეთ რედაქტირების ჯგუფში და აირჩიეთ პატარა და უმსხვილესზე დახარისხება ან დახარისხება უმცირესზე .
- ჩვენს შემთხვევაში, ჩვენ შევარჩიეთ პატარა და დიდის დახარისხება . მან დაალაგა რიცხვები ჩვენს მონაცემთა ბაზაში ზრდადი თანმიმდევრობით, ათავსებს ყველაზე პატარას ზედა და ყველაზე დიდს ქვემოთ.
ახლა უბრალოდ ხელით წაშალე ეს მონაცემები. მონაცემთა ნაკრების დაშორებული მნიშვნელობების გასათავისუფლებლად.
ჩვენ არ გირჩევთ ამ პროცესის დაცვას დიდ მონაცემთა ბაზასთან მუშაობისას. როდესაც თქვენი მონაცემთა ნაკრები მცირეა და ადვილი სანახავია, მხოლოდ მაშინ შეგიძლიათ გამოიყენოთ ეს პროცედურა, წინააღმდეგ შემთხვევაში არ განახორციელოთ ეს.
დაწვრილებით: როგორ ამოიღოთ სორტირება Excel-ში ( 3 მარტივი მეთოდი)
დასკვნა
ეს სტატია გასწავლით, თუ როგორ ამოშალოთ outliers Excel-ში. ვიმედოვნებ, რომ ეს სტატია თქვენთვის ძალიან სასარგებლო იყო. მოგერიდებათ ჰკითხოთ, თუ გაქვთ რაიმე შეკითხვა ამასთან დაკავშირებითთემა.