فهرست مطالب
پیدا کردن نقاط پرت و حذف آنها یک کار بسیار متداول برای تجزیه و تحلیل داده ها در آمار، داده کاوی، یادگیری ماشینی و غیره است. راه های زیادی وجود دارد که می توانید مقادیر پرت را در مجموعه داده خود بیابید، اما فرآیند حذف آنها چندان آسان نیست. پیدا کردن. در این مقاله، نحوه حذف نقاط پرت در اکسل را به شما نشان خواهیم داد.
دانلود کتاب کار
می توانید کتاب تمرین رایگان اکسل را از اینجا دانلود کنید. در اینجا.
حذف Outliers.xlsx
Outliers در Excel چیست؟
An outlier مقداری است که از مقدار میانگین یا میانه یک مجموعه داده فاصله دارد. به عبارت دیگر، مقادیر پرت مقادیری هستند که به طور قابل توجهی بالاتر یا کمتر از بقیه مقادیر در یک مجموعه داده هستند.
به مسابقه کریکت فکر کنید که در آن همه ضربهزنان حدود 50 امتیاز کسب کردند اما تنها یک ضربهزن در یک قرن امتیاز کسب کرد (100). امتیازهای 100 و 0 امتیازهای پرت در این مسابقه هستند.
نمرات دور از دسترس مشکل ساز هستند زیرا می توانند نتیجه تجزیه و تحلیل داده ها را منحرف کنند و نتایج گمراه کننده ای را به همراه داشته باشند. بنابراین بهتر است مقادیر پرت را پیدا کنید و آنها را حذف کنید تا یک مجموعه داده صاف داشته باشید.
3 روش برای حذف Outliers در اکسل
در این بخش، شما یاد خواهید گرفت که چگونه حذف پرت از مجموعه داده خود به 3 روش مختلف. حذف نقاط پرت یک فرآیند دشوار است، بنابراین کل مقاله را با دقت بخوانید.
1. استفاده از تابع اکسل برای محاسبه میانگین بدونOutliers
Excel TRIMMEAN تابع را می توان برای محاسبه میانگین یک مجموعه داده معین در حالی که مقادیر پرت را حذف کرد استفاده کرد. نقاط داده برای حذف به صورت درصد ارائه می شود. مقدار درصد را می توان به صورت فرمت اعشاری یا قالب درصد وارد کرد.
نحوه برای محاسبه میانگین بدون نقاط پرت است،
=TRIMMEAN(آرایه، درصد)در اینجا،
- آرایه = محدوده داده برای برش و محاسبه میانگین نتیجه
- درصد = تعداد نقاط داده ای که باید حذف شوند
بیایید ببینیم چگونه این تابع را برای محاسبه نتایج با نقاط پرت حذف شده پیاده سازی کنیم.
تصویر بالا را در نظر بگیرید. ما داده هایی از سلول B5 تا B14 داریم. در اینجا بیشتر اعداد بین 20 تا 27 هستند، اما دو مقدار - 0 و 100 - بسیار دور از این مقادیر هستند. بنابراین اینها نقاط پرت در مجموعه داده ما هستند.
برای مجموعه داده ما، فرمول محاسبه میانگین (میانگین) بدون مقادیر پرت با تابع Excel TRIMMEAN ،
=TRIMMEAN(B5:B14,0.2)
اینجا،
- B5:B14 = محدوده داده برای برش و محاسبه میانگین نتیجه
- 0.2 (یا 20%) = تعداد نقاط داده ای که باید حذف شوند
اگر هر عددی در مجموعه داده 20٪ از بقیه مجموعه داده کاهش یابد. ، سپس آن عدد پرت نامیده می شود.
اگر فرمول را بر اساس مجموعه داده خود بنویسید و Enter را فشار دهید، میانگین محاسبه شده را بدون اعداد پرت دریافت خواهید کرد. برای مجموعه داده شما. در مورد ما، سلول E6 میانگین محاسبه شده را نگه می دارد که 23.50 است.
برای بررسی اینکه آیا پاسخ صحیح است یا نه، تابع AVERAGE را اجرا می کنیم. در سلول E5 که میانگین ( 28.80 ) همه مقادیر در محدوده B5:B14 را برمی گرداند. و در سلول E7 ، تابع AVERAGE دیگری را با وارد کردن دستی همه سلولها به جز آنهایی که مقادیر پرت را در خود دارند اجرا میکنیم و در نتیجه بازدهی 23.50 دریافت میکنیم.
بنابراین میتوان گفت که تابع TRIMMEAN میتواند هنگام محاسبه میانگین در اکسل، مقادیر پرت را با موفقیت از مجموعه دادههای معین حذف کند.
بیشتر بخوانید: نحوه پاک کردن فرمول در اکسل (7+ روش)
2. حذف Outliers از Dataset و Line Chart در Excel
به تصویر زیر توجه کنید. ما داده هایی داریم که بر اساس آنها یک نمودار خطی ایجاد کردیم. از نمودار خطی، به راحتی می توانیم ببینیم که در نقاط داده 4 و 8 ما نقاط پرت خود را داریم .
اکنون خواهیم دید که چگونه می توانیم صاف کنیم نمودار خطی را با حذف مقادیر بیرونی از مجموعه داده خارج کنید.
در سلول دیگری (در مورد ما Cell H6 است)، فرمول زیر را بنویسید،
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
در اینجا،
- C6 = سلولی که اولین داده را در مجموعه داده نگهداری می کند
- C5 = سلول بالای اولین سلول داده
- C7 = سلول زیر اولین سلول داده
- $E$6 = تفاوت بین نقاط داده .
در حال نگاه کردن بهداده های ما، به نظر می رسد که وقتی یک نقطه داده 10 واحد با سایرین متفاوت است، به عنوان خارج تعیین می شود. بنابراین 10 را در Cell E6 قرار می دهیم و آن را به مرجع سلول مطلق تبدیل می کنیم تا این سلول در حین اسکن و محاسبه کل مجموعه داده ثابت شود.
پس از فشار دادن Enter ، می توانید ببینید که اولین داده هنوز در سلول نتیجه H6 ظاهر می شود. تنها کاری که باید در اینجا انجام می دادید این است که فرمول را بسازید تا بتوانیم Fill Handle را بکشیم تا فرمول را در بقیه سلول ها اعمال کنیم.
اکنون ردیف را با Fill Handle به پایین بکشید و خواهید دید که سلول هایی که نقاط پرت را نگه می داشتند اکنون با #N/A پر شده اند.
و اکنون به نمودار خطی نگاه کنید، این اکنون یک نمودار مسطح بدون هیچ مقدار دور از آن است.
تجزیه فرمول
=IF(
از آنجایی که قصد داریم مقادیری را که بر اساس آنها نتیجه را استخراج می کنیم مقایسه کنیم، فرمول را با شرط IF .
=IF(AND(
ما میخواهیم نقطه داده فعلی و سلول بالا و سلول زیر را مقایسه کنیم و اگر هر دو مقایسه درست باشد، تنها در آن صورت نقطه داده را در نتیجه نشان خواهیم داد.بنابراین، از آنجایی که باید با مقایسههای "هر دو" سروکار داشته باشیم، باید از تابع AND استفاده کنیم.
=IF(AND(ABS(
وقتی نقاط داده را کم می کنیم، ممکن است برخی از داده ها مقادیر منفی ایجاد کنند. و ما این کار را انجام می دهیم نهمی خواهید با مقادیر منفی برخورد کنید زیرا مقادیر منفی همیشه با شرط "حذف داده ها زمانی که اختلاف 10 است" در تضاد است. بنابراین برای اطمینان از اینکه همیشه نتایج مثبت داریم، باید مقایسه ها را در یک تابع مقدار مطلق قرار دهیم.
=IF(AND(ABS(C6-C5)> ;$E$6
در اینجا اولین مقایسه خود را شروع کردیم.به سادگی مقدار فعلی را با مقدار بالا کم می کنیم و می بینیم که آیا نتیجه از سطح اختلاف ذخیره شده در Cell E6<2 بیشتر است یا خیر> و سلول را به مرجع مطلق تبدیل کرد تا مقدار سلول قفل بماند.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6 -C7)>$E$6)
بعد، قسمت دوم مقایسه که با کاما از هم جدا می شود. نقطه داده فعلی را با نقطه داده بعدی مقایسه می کند.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
اکنون ما قرار می دهیم یک کاما و تعیین کنید که اگر هر دو تابع AND درست هستند، تابع NA را در آنجا قرار دهید.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
و اگر تابع AND درست نباشد، ما می خواهید نقطه داده واقعی را به عنوان مقدار IF False برگردانید.بنابراین تایپ می کنیم e در کاما قرار دهید و شماره مرجع سلول C6 را در آنجا ارسال کنید.
بیشتر بخوانید: نحوه حذف اعتبارسنجی داده ها در اکسل (5 روش)
خواندنی مشابه
- نحوه حذف هدر در اکسل (4 روش)
- خطوط نقطه چین را حذف کنیدExcel (5 روش سریع)
- نحوه حذف Grid از اکسل (6 روش آسان)
- حذف مرزها در اکسل (4 روش سریع)
- چگونه حالت سازگاری را در اکسل حذف کنیم (2 روش آسان)
3. حذف دستی Outliers در اکسل
یکی دیگر از راه های آسان برای حذف نقاط پرت در اکسل این است که فقط مقادیر مجموعه داده خود را مرتب کنید و مقادیر بالا و پایین را به صورت دستی از آن حذف کنید.
برای مرتب سازی داده ها،
- انتخاب مجموعه داده.
- به مرتب سازی & را در گروه ویرایش فیلتر کنید و مرتب سازی کوچکترین به بزرگترین یا مرتب سازی بزرگترین به کوچکترین را انتخاب کنید.
- در مورد ما، مرتب سازی کوچکترین به بزرگتر را انتخاب کردیم . اعداد موجود در مجموعه داده ما را به ترتیب صعودی مرتب کرد و کوچکترین ها را در بالا و بزرگ ترین ها را در پایین قرار داد.
اکنون فقط به صورت دستی آن داده ها را حذف کنید. برای رایگان کردن مقادیر دور از مجموعه دادهها.
ما توصیه نمیکنیم این فرآیند را هنگام کار با مجموعه داده بزرگ دنبال کنید. هنگامی که مجموعه داده شما کوچک است و مشاهده آن آسان تر است، تنها در این صورت می توانید این رویه را اعمال کنید، در غیر این صورت این روش را اجرا نکنید.
بیشتر بخوانید: چگونه مرتب سازی را در اکسل حذف کنیم ( 3 روش آسان)
نتیجه گیری
این مقاله به شما نشان داد که چگونه حذف نقاط پرت در اکسل. امیدوارم این مقاله برای شما بسیار مفید بوده باشد. در صورت داشتن هر گونه سوال در مورد آن، می توانید بپرسیدموضوع.