Оглавление
Поиск промахов и их удаление - очень распространенная задача при анализе данных в статистике, анализе данных, машинном обучении и т.д. Существует множество способов найти промахи в наборе данных, но процесс их удаления не так прост. В этой статье мы покажем вам, как удаление промахов в Excel .
Скачать рабочую тетрадь
Вы можете скачать бесплатную практическую рабочую тетрадь Excel отсюда.
Удалить выбросы.xlsxЧто такое выбросы в Excel?
An выброс Это значение, которое сильно отличается от среднего или медианного значения набора данных. Другими словами, выбросы - это значения, которые значительно выше или ниже остальных значений в наборе данных.
Представьте себе матч по крикету, в котором все бэттеры набрали около 50 очков, но только один бэтмен набрал столетие (100), а другой бэтмен вышел из игры при 0. Эти 100 и 0 очков являются выбросами в этом матче.
Выбросы являются проблематичными, поскольку они могут исказить результаты анализа данных и привести к недостоверным результатам. Поэтому лучше найти выбросы и удалить их, чтобы получить гладкий набор данных.
3 способа удаления выбросов в Excel
В этом разделе вы узнаете, как удаление выбросов из вашего набора данных 3 различными способами. Удаление выбросов - сложный процесс, поэтому внимательно прочитайте всю статью.
1. использование функции Excel для расчета среднего значения без выбросов
Excel Функция TRIMMEAN можно использовать для расчета среднего значения по заданному набору данных, исключая при этом выбросы. Точки данных, которые необходимо исключить, задаются в процентах. Значение процента может быть введено в десятичном формате или в формате процентов.
Синтаксис для расчета среднего без выбросов следующий,
=TRIMMEAN(массив, процент)Вот,
- массив = Диапазон данных для обрезки и расчета среднего результата
- процент = Количество точек данных для исключения
Давайте посмотрим, как реализовать эту функцию для расчета результатов с удаленными выбросами.
Рассмотрим рисунок выше. У нас есть данные из Ячейка B5 - B14 Здесь большинство чисел находятся в диапазоне от 20 до 27, но два значения - 0 и 100 - далеки от этих значений. Итак, это выбросы в нашем наборе данных.
Для нашего набора данных формула для вычисления среднего значения (average) без учета значений выбросов в Excel TRIMMEAN функция,
=TRIMMEAN(B5:B14,0.2)
Вот,
- B5:B14 = Диапазон данных для обрезки и расчета среднего результата
- 0.2 (или 20%) = Количество точек данных, которые необходимо исключить
Если какое-либо число в наборе данных на 20% отличается от остальных, то это число будет называться выбросом.
Если вы напишете формулу в соответствии с вашим набором данных и нажмете кнопку Войти вы получите расчетное среднее значение без учета выбросов для вашего набора данных. В нашем случае, Клетка E6 соответствует вычисленному среднему значению, которое 23.50 .
Чтобы проверить, верен ли ответ или нет, мы запускаем программу функция AVERAGE в Ячейка E5 который возвращает среднее значение ( 28.80 ) всех значений в диапазоне B5:B14 . И в Клетка E7 , мы запускаем другой СРЕДНЕЕ функцию, введя вручную все ячейки, кроме тех, которые содержат значения промахов, и получил результат 23.50 в результате.
Поэтому мы можем сказать, что TRIMMEAN функция может успешно удалять выбросы из заданного набора данных при вычислении среднего значения в Excel.
Читать далее: Как очистить формулу в Excel (7+ методов)
2. Удаление выбросов из набора данных и линейной диаграммы в Excel
Обратите внимание на следующий рисунок. У нас есть некоторые данные, на основе которых мы построили линейный график. Из линейного графика мы можем легко увидеть, что в точки данных 4 и 8 у нас есть наши выбросы .
Теперь мы посмотрим, как можно сгладить линейный график, удалив из набора данных выходящие за рамки значения.
В другой ячейке (в нашем случае это Ячейка H6 ), напишите следующую формулу,
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
Вот,
- C6 = Ячейка, содержащая первые данные в наборе данных
- C5 = Ячейка над первой ячейкой данных
- C7 = Ячейка под первой ячейкой данных
- $E$6 = Разница между точками данных.
Если посмотреть на наши данные, то кажется, что когда точка данных отличаться на 10 единиц от других, обозначается как выброс Так что мы поставили 10 в Клетка E6 и сделать его Абсолютная ссылка на ячейку чтобы эта ячейка была зафиксирована при сканировании и вычислении по всему набору данных.
После нажатия Войти Вы можете видеть, что первые данные все еще отображаются в ячейке результата H6 Все, что вам нужно было сделать здесь, это просто построить формулу, чтобы мы могли перетаскивать Наполнительная рукоятка чтобы применить формулу к остальным ячейкам.
Теперь перетащите строку вниз с помощью Наполнительная рукоятка и вы увидите, что ячейки, в которых находились выбросы, теперь заполнены #N/A .
И посмотрите на линейный график, теперь это сглаженный график без каких-либо выходящих за пределы значений.
Разбивка формулы
=IF(
Поскольку мы собираемся сравнивать значения, на основе которых мы будем извлекать результат, мы инициируем формулу со значением ЕСЛИ состояние.
=IF(AND(
Мы собираемся сравнить текущую точку данных и ячейку выше и ниже. И если оба сравнения верны, только тогда мы покажем точку данных в качестве результата. Итак, поскольку нам нужно иметь дело со сравнениями "Both", мы должны использовать функцию функция AND .
=IF(AND(ABS(
Когда мы вычитаем точки данных, некоторые данные могут иметь отрицательные значения. А мы не хотим иметь дело с отрицательными значениями, так как отрицательные значения всегда будут противоречить условию "удалять данные, когда разница равна 10". Поэтому, чтобы убедиться, что мы всегда имеем положительные результаты, нам нужно обернуть сравнения в Функция абсолютного значения .
=IF(AND(ABS(C6-C5)>$E$6
Здесь мы начали наше первое сравнение. Мы просто вычитаем текущее значение из значения выше и смотрим, больше ли результат, чем уровень разницы, хранящийся в Клетка E6 и сделал клетку Абсолютная ссылка чтобы значение ячейки оставалось заблокированным.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)
Далее вторая часть сравнения, которая отделяется запятой. Она будет сравнивать текущую точку данных со следующей точкой данных.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
Теперь ставим запятую и определяем, чтобы поставить функция NA там, если оба И функции истинны.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
И если И не является истиной, то мы хотим вернуть фактическую точку данных как ЕСЛИ Ложное значение. Поэтому мы вводим запятую и передаем номер ссылки на ячейку. C6 там.
Читать далее: Как убрать валидацию данных в Excel (5 способов)
Похожие чтения
- Как удалить заголовок в Excel (4 метода)
- Удаление пунктирных линий в Excel (5 быстрых способов)
- Как удалить сетку из Excel (6 простых способов)
- Удаление границ в Excel (4 быстрых способа)
- Как удалить режим совместимости в Excel (2 простых способа)
3. Удаление промахов вручную в Excel
Еще один простой способ устранения выбросов в Excel - просто отсортировать значения вашего набора данных и вручную удалить из него верхние и нижние значения.
Чтобы отсортировать данные,
- Выберите набор данных.
- Перейти к Сортировка и фильтр в Редактирование группу и выберите либо Сортировать от наименьшего к наибольшему или Сортировать от наибольшего к наименьшему .
- В нашем случае мы выбрали Сортировать от наименьшего к наибольшему Он отсортировал числа в нашем наборе данных в порядке возрастания, поместив самые маленькие вверху, а самые большие внизу.
Теперь просто вручную удалите эти данные, чтобы освободить набор данных от выходящих значений.
Мы не рекомендуем следовать этому процессу при работе с большим набором данных. Когда ваш набор данных будет небольшим и более удобным для просмотра, только тогда вы сможете применить эту процедуру, в противном случае не применяйте ее.
Читать далее: Как удалить сортировку в Excel (3 простых способа)
Заключение
В этой статье вы узнали, как удалять выбросы в Excel. Надеюсь, эта статья была очень полезна для вас. Не стесняйтесь спрашивать, если у вас есть какие-либо вопросы по этой теме.