विषयसूची
आंकड़ों, डेटा माइनिंग, मशीन लर्निंग आदि में डेटा का विश्लेषण करने के लिए आउटलेयर ढूंढना और उन्हें हटाना एक बहुत ही सामान्य कार्य है। ऐसे कई तरीके हैं जिनसे आप अपने डेटासेट में आउटलेयर ढूंढ सकते हैं लेकिन उन्हें हटाने की प्रक्रिया इतनी आसान नहीं है पाना। इस लेख में, हम आपको दिखाएंगे कि Excel में आउटलेयर कैसे निकालें ।
वर्कबुक डाउनलोड करें
आप फ्री प्रैक्टिस एक्सेल वर्कबुक को यहां से डाउनलोड कर सकते हैं। यहाँ।
आउटलायर्स हटाएँ। xlsx
एक्सेल में आउटलायर्स क्या हैं?
एक आउटलायर एक ऐसा मान है जो किसी डेटासेट के माध्य या औसत मान से अलग होता है। दूसरे शब्दों में, आउटलेयर वे मान होते हैं जो डेटासेट में शेष मानों की तुलना में महत्वपूर्ण रूप से अधिक या कम होते हैं।
एक क्रिकेट मैच के बारे में सोचें जहां सभी बल्लेबाजों ने लगभग 50 रन बनाए लेकिन केवल एक बल्लेबाज ने शतक (100) बनाया। ) और एक अन्य बल्लेबाज 0 पर आउट हो गया। इस मैच में 100 और 0 स्कोर आउटलेयर हैं।
आउटलेयर समस्याग्रस्त हैं क्योंकि वे डेटा विश्लेषण के परिणाम को तिरछा कर सकते हैं और भ्रामक परिणाम उत्पन्न कर सकते हैं। इसलिए बेहतर है कि आउटलेयर को ढूंढा जाए और उन्हें एक सुगम डेटासेट के लिए हटा दिया जाए। अपने डेटासेट से 3 अलग-अलग तरीकों से आउटलेयर हटाएं । आउटलेयर को हटाना एक पेचीदा प्रक्रिया है, इसलिए पूरे लेख को ध्यान से पढ़ें।
1। बिना औसत की गणना करने के लिए एक्सेल फ़ंक्शन का उपयोग करनाआउटलेयर
एक्सेल ट्रिममीन फ़ंक्शन का उपयोग किसी दिए गए डेटासेट के औसत की गणना करने के लिए किया जा सकता है, जबकि आउटलेयर को छोड़कर। बहिष्कृत किए जाने वाले डेटा बिंदुओं को प्रतिशत के रूप में आपूर्ति की जाती है। प्रतिशत मान को दशमलव प्रारूप या प्रतिशत प्रारूप के रूप में इनपुट किया जा सकता है।
यहाँ,
- सरणी = ट्रिम करने के लिए डेटा की रेंज और औसत परिणाम की गणना करें
- प्रतिशत = बहिष्कृत करने के लिए डेटा बिंदुओं की संख्या
आइए देखें कि हटाए गए आउटलेयर के साथ परिणामों की गणना करने के लिए इस फ़ंक्शन को कैसे लागू किया जाए।
उपरोक्त चित्र पर विचार करें। हमारे पास सेल B5 से B14 का डेटा है। यहां अधिकांश संख्याएं 20 से 27 के बीच हैं, लेकिन दो मान - 0 और 100 - उन मानों से बहुत दूर हैं। तो ये हमारे डेटासेट में आउटलेयर हैं।
हमारे डेटासेट के लिए, एक्सेल TRIMMEAN फ़ंक्शन के साथ आउटलाइयर मानों के बिना माध्य (औसत) की गणना करने का सूत्र है,
=TRIMMEAN(B5:B14,0.2)
यहां,
- B5:B14 = ट्रिम करने के लिए डेटा की रेंज और औसत परिणाम की गणना करें
- 0.2 (या 20%) = बहिष्कृत किए जाने वाले डेटा बिंदुओं की संख्या
यदि डेटासेट में कोई संख्या शेष डेटासेट से 20% कम हो जाती है , तो उस नंबर को आउटलेयर कहा जाएगा।
यदि आप अपने डेटासेट के अनुसार सूत्र लिखते हैं और एंटर दबाते हैं, तो आपको आउटलायर्स के बिना परिकलित माध्य मिलेगा आपके डेटासेट के लिए। हमारे मामले में, सेल E6 परिकलित माध्य रखता है जो 23.50 है।
यह जांचने के लिए कि उत्तर सही है या नहीं, हम औसत फ़ंक्शन चलाते हैं सेल E5 में जो श्रेणी B5:B14 में सभी मानों का औसत ( 28.80 ) लौटाता है। और सेल E7 में, हम एक और औसत फ़ंक्शन को मैन्युअल रूप से उन सभी सेल को छोड़कर जो आउटलेयर मान रखते हैं, इनपुट करके चलाते हैं, और परिणाम के रूप में 23.50 का रिटर्न मिलता है।
तो हम कह सकते हैं कि TRIMMEAN फ़ंक्शन एक्सेल में औसत की गणना करते समय किसी दिए गए डेटासेट से आउटलेयर को सफलतापूर्वक हटा सकता है।
और पढ़ें: एक्सेल में फ़ॉर्मूला कैसे साफ़ करें (7+ तरीके)
2. एक्सेल में डेटासेट और लाइन चार्ट से आउटलेयर निकालें
निम्न चित्र पर ध्यान दें। हमारे पास कुछ डेटा है जिसके आधार पर हमने एक लाइन ग्राफ बनाया है। लाइन ग्राफ़ से, हम आसानी से देख सकते हैं कि डेटा पॉइंट 4 और 8 में हमारे आउटलेयर हैं ।
अब हम देखेंगे कि हम कैसे स्मूद कर सकते हैं डेटासेट से आउटलाइंग वैल्यू को हटाकर लाइन चार्ट को आउट करें।
दूसरे सेल में (हमारे मामले में यह सेल H6 है), निम्न सूत्र लिखें,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
यहाँ,
- C6 = सेल जो डेटासेट में पहला डेटा रखता है
- C5 = पहले डेटा सेल के ऊपर का सेल
- C7 = पहले डेटा सेल के नीचे का सेल
- $E$6 = डेटा बिंदुओं के बीच अंतर .
देख रहे हैंहमारा डेटा, ऐसा लगता है कि जब कोई डेटा पॉइंट दूसरों से 10 यूनिट अलग होता है, तो उसे बाह्य के रूप में नामित किया जाता है। इसलिए हम 10 को सेल E6 में रखते हैं और इसे एब्सोल्यूट सेल रेफरेंस बनाते हैं ताकि पूरे डेटासेट के माध्यम से स्कैन और गणना करते समय यह सेल ठीक हो जाए।<3
Enter दबाने के बाद, आप देख सकते हैं कि पहला डेटा अभी भी परिणाम सेल H6 में दिखाई दे रहा है। यहाँ आपको बस इतना करना है, बस सूत्र का निर्माण करना है ताकि हम शेष कोशिकाओं में सूत्र को लागू करने के लिए फिल हैंडल को खींच सकें।
अब फिल हैंडल के साथ पंक्ति को नीचे खींचें और आप देखेंगे कि आउटलेयर रखने वाले सेल अब #N/A से भर गए हैं।
और अब लाइन चार्ट को देखें, यह अब बिना किसी बाहरी मान के एक चपटा ग्राफ है।
फ़ॉर्मूला ब्रेकडाउन
=IF(
चूंकि हम उन मूल्यों की तुलना करने जा रहे हैं जिनके आधार पर हम परिणाम निकालेंगे, हम सूत्र की शुरुआत करते हैं IF स्थिति।
=IF(AND(
हम वर्तमान डेटा बिंदु और ऊपर के सेल और नीचे के सेल की तुलना करने जा रहे हैं । और यदि दोनों तुलनाएं सही हैं, तभी हम परिणाम के रूप में डेटा बिंदु दिखाएंगे। इसलिए, चूंकि हमें "दोनों" तुलनाओं से निपटने की आवश्यकता है, इसलिए हमें AND फ़ंक्शन का उपयोग करना चाहिए।
=IF(AND(ABS(
जब हम डेटा बिंदुओं को घटाते हैं, तो कुछ डेटा नकारात्मक मान दे सकते हैं। और हम करते हैं) नहींनकारात्मक मूल्यों से निपटना चाहते हैं क्योंकि नकारात्मक मूल्य हमेशा "अंतर 10 होने पर डेटा हटाने" की स्थिति का खंडन करेंगे। इसलिए यह सुनिश्चित करने के लिए कि हमारे पास हमेशा सकारात्मक परिणाम हों, हमें तुलनाओं को एक एब्सोल्यूट वैल्यू फंक्शन में लपेटना होगा।
=IF(AND(ABS(C6-C5)>) ;$E$6
यहां हमने अपनी पहली तुलना शुरू की। हम बस वर्तमान मान को ऊपर दिए गए मान से घटाते हैं और देखते हैं कि परिणाम सेल E6<2 में संग्रहीत अंतर स्तर से अधिक है या नहीं> और सेल वैल्यू को लॉक रखने के लिए सेल को एब्सोल्यूट रेफरेंस बना दिया।
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6) -C7)>$E$6)
अगला, तुलना का दूसरा भाग जिसे अल्पविराम से अलग किया गया है। यह वर्तमान डेटा बिंदु की तुलना अगले डेटा बिंदु से करेगा।
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
अब हम डालते हैं एक अल्पविराम और NA फ़ंक्शन को वहां रखने के लिए निर्धारित करें यदि दोनों और फ़ंक्शन सत्य हैं।
= IF (AND (ABS (C6-C5)) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
और यदि AND फ़ंक्शन सत्य नहीं है तो हम वास्तविक डेटा बिंदु को IF गलत मान के रूप में वापस करना चाहते हैं। इसलिए हम टाइप करते हैं e अल्पविराम में और सेल संदर्भ संख्या C6 वहां पास करें।
और पढ़ें: Excel में डेटा सत्यापन कैसे निकालें (5 तरीके)
समान रीडिंग
- एक्सेल में हैडर कैसे निकालें (4 तरीके)
- बिंदीदार रेखाओं को हटा देंएक्सेल (5 त्वरित तरीके)
- एक्सेल से ग्रिड कैसे निकालें (6 आसान तरीके)
- एक्सेल में बॉर्डर हटाएं (4 त्वरित तरीके)
- एक्सेल में कम्पैटिबिलिटी मोड कैसे हटाएं (2 आसान तरीके)
3. एक्सेल में मैन्युअल रूप से आउटलेयर निकालें
एक्सेल में आउटलेयर को खत्म करने का एक और आसान तरीका है, बस अपने डेटासेट के मूल्यों को क्रमबद्ध करें और मैन्युअल रूप से इसमें से ऊपर और नीचे के मानों को हटा दें।
सॉर्ट करने के लिए डेटा,
- डेटासेट चुनें।
- क्रमबद्ध करें और; को संपादन समूह में फ़िल्टर करें और या तो सबसे छोटे से सबसे बड़े को क्रमबद्ध करें या सबसे बड़े से सबसे छोटे को क्रमबद्ध करें चुनें।
<19
- हमारे मामले में, हमने सबसे छोटे से सबसे बड़े क्रम में लगाएं को चुना है। यह हमारे डेटासेट में संख्याओं को आरोही क्रम में क्रमबद्ध करता है, सबसे छोटे को सबसे ऊपर और सबसे बड़े को सबसे नीचे रखता है।
अब बस मैन्युअल रूप से उन डेटा को हटा दें डेटासेट को बाहरी मान मुक्त बनाने के लिए।
बड़े डेटासेट के साथ काम करते समय हम इस प्रक्रिया का पालन करने की अनुशंसा नहीं करते हैं। जब आपका डेटासेट छोटा और देखने में आसान हो, तभी आप इस प्रक्रिया को लागू कर सकते हैं, अन्यथा इसे लागू न करें।
और पढ़ें: Excel में सॉर्ट कैसे निकालें ( 3 आसान तरीके)
निष्कर्ष
इस लेख में आपको दिखाया गया है कि एक्सेल में आउटलायर्स कैसे हटाएं । मुझे उम्मीद है कि यह लेख आपके लिए बहुत फायदेमंद रहा होगा। बेझिझक पूछें कि क्या आपके पास इसके बारे में कोई प्रश्न हैंविषय।