Оглавление
Для проведения статистических вычислений на основе данных из набора данных может потребоваться выявление выбросов. Вы можете обнаружить выбросы из огромных наборов данных с помощью Microsoft Excel различными способами. В этой статье мы покажем вам, как вычислить выбросы в Microsoft Excel с помощью пяти различных способов.
Скачать Рабочую тетрадь для практических занятий
Вы можете скачать бесплатную рабочую тетрадь Excel отсюда и потренироваться самостоятельно.
Найти выбросы.xlsx5 удобных подходов к расчету выбросов в Excel
Outliers это значения данных, которые значительно отличаются от остальных значений в наборе данных. Иными словами, выбросы - это необычные значения. Они являются либо исключительно высокая или чрезмерно низкий по сравнению с другими значениями в наборе данных. Поиск выбросов имеет жизненно важное значение для статистических расчетов, поскольку они влияют на результаты анализа наших данных.
Например, у вас есть набор данных, показывающий ежедневный доход двенадцати человек. Теперь вам нужно вычислить выбросы с помощью Microsoft Excel. Здесь я покажу вам пять простых подходов для этого.
1. использование сортировки и фильтра для расчета выбросов в Excel
Вы можете вычислить выбросы из небольшого набора данных с помощью функции Сортировка и фильтр Если вы хотите вычислить выбросы с помощью функции сортировки и фильтрации, вы можете сделать это, выполнив следующие действия.
Шаг 1:
- Во-первых, выберите заголовок столбца в наборе данных excel, который вы хотите отсортировать. Например, в данном наборе данных, в файле заголовок столбца с именем Ежедневный доход (Клетка C40 выбирается).
Шаг 2:
- Затем нажмите кнопку Главная на ленте и перейдите на вкладку Редактирование группа.
Шаг 3:
- После этого в Группа редактирования нажмите на Сортировка и фильтр команду и нажмите на Пользовательский Сортировать .
Шаг 4:
- Затем появится новое диалоговое окно с именем Сортировать откроется. В появившемся диалоговом окне выберите Ежедневно Доход в Сортировать по выпадающий и От наименьшего до наибольшего в раскрывающемся списке "Заказ". После этого нажмите кнопку OK .
Шаг 5:
- Наконец, в Ежедневный доход столбец будет отсортирован указанным образом, с наименьшими значениями в верхней части и наибольшими значениями в нижней части. После выполнения процедуры обратите внимание на любые нарушения в диапазоне данных, чтобы определить выбросы.
Например, первые два значения в столбце значительно ниже, а последние два значения в столбце значительно выше, чем остальные значения в наборе данных, как показано в приведенном выше результате.
Читать далее: Как найти выбросы в регрессионном анализе в Excel (3 простых способа)
2. Применение функции QUARTILE для расчета выбросов в Excel
Функция QUARTILE Это более научный способ вычисления выбросов в Excel. Вы можете использовать эту функцию, чтобы разделить набор данных на четыре равные части. Следующие значения будут возвращены функцией функция QUARTILE :
- Сайт минимум ценность.
- Сайт 1-й квартиль (Q1 - наименьшие 25% данного набора данных).
- Сайт 2-й квартиль (Q2-следующие наименьшие 25% набора данных).
- Сайт 3-й квартиль (Q3 - вторые по величине 25% набора данных).
- Сайт максимальный ценность.
Синтаксис функция QUARTILE в Excel является:
=QUARTILE(array,quart)
Синтаксис содержит следующие аргументы:
- a rray : диапазон ячеек данного набора данных, для которого вы будете вычислять значение квартиля.
- кварта: Здесь указывается, какое значение должно быть возвращено.
Для вычисления выбросов для вышеуказанного набора данных с помощью функцию QUARTILE, выполните следующие действия.
Шаг 1:
- Во-первых, введите следующую формулу для определения 1-й квартиль ( Q1 ) приводится ниже.
=КВАРТАЛ($C$5:$C$16,1)
Шаг 2:
- Здесь снова используется формула для расчета 3-й квартиль ( Q3 ) приводится ниже.
=КВАРТАЛ($C$5:$C$16,3)
Шаг 3:
- В-третьих, вы должны определить IQR, который является Межквартильный диапазон (он представляет собой 50% данных из набора данных, которые попадают в первый и третий квартили) путем вычитания Q1 (в камере G4 ) от Q3 (в камере G5 ). Введите следующую формулу для вычисления вычитания.
=G5-G4
Шаг 4:
- После обнаружения IQR, Затем вам нужно определить верхняя и ниже Потому что верхняя и ниже предел будет содержать большую часть данных в наборе данных. Запишите следующую формулу для расчета верхнего предела.
=G5+(1.5*G6)
Шаг 5:
- Затем, чтобы рассчитать нижний предел, запишите следующую формулу.
=G4-(1.5*G6)
Шаг 6:
- Наконец, после завершения предыдущего шага, вы можете определить выбросы для каждого значения данных. В рабочем листе excel введите следующую формулу со значением функция ИЛИ в камере D5 .
=OR(C5$G$7)
- Эта формула поможет определить данные, которые не попадают в вышеупомянутую границу диапазона. После обработки формула покажет Истинное утверждение если конкретные данные являются выбросом и FALSE если это не так. Дважды щелкните на Автозаполнение инструмент в камере C5 для копирования формулу в остальные ячейки в колонка C Таким образом, вы можете наблюдать значение True рядом со всеми выбросами в вашем наборе данных.
3. Комбинация функций AVERAGE и STDEV.P для вычисления выбросов из среднего и стандартного отклонения
A стандартное отклонение (или σ ) - это метрика для определения того, насколько распределены данные относительно среднего значения всего набора данных. Данные группируются вокруг среднего значения, когда стандартное отклонение низкое, в то время как данные более разбросаны, когда стандартное отклонение высокое. Для расчета выбросов с помощью Средний и Стандартное отклонение вы можете выполнить следующие действия.
Шаг 1:
- Во-первых, используйте тот же набор данных, что и в начале этой статьи, а затем рассчитайте среднее значение и стандартное отклонение. Для расчета среднего значения введите следующую формулу с помощью функция AVERAGE в камере G5 .
= СРЕДНЕЕ(C5:C16)
Шаг 2:
- Чтобы вычислить стандартное отклонение, подставьте следующую формулу с функция STDEV.P в камере G6 .
=STDEV.P(C5:C16)
Шаг 3:
- Далее вы рассчитаете верхний предел для дальнейшего продвижения в процессе. В ячейке G7 , рассчитайте нижний предел по следующей формуле.
=G5-(1.25*G6)
Шаг 4:
- И в камере G8 рассчитать верхний предел по следующей формуле
=G5+(1.5*G6)
Шаг 5:
- После этого, чтобы вычислить наличие или отсутствие выбросов, введите в ячейку следующую формулу D5 .
=OR(C5$G$8)
- Таким образом, формула вернет TRUE значение, если конкретные данные в нужной ячейке являются выбросом и ЛОЖЬ.
- Дважды щелкните на Автозаполнение инструмент в камере D5 чтобы скопировать формулу в остальные ячейки в столбец D Таким образом, вы можете найти все оставшиеся выбросы в вашем наборе данных.
Читать далее: Как найти выбросы с помощью стандартного отклонения в Excel (с быстрыми шагами)
4. Вставка Z-Score для расчета выбросов в Excel
Сайт Z-score является одной из наиболее часто используемых метрик для определения выбросов. Этот метод показывает, насколько далеко конкретные данные находятся от среднего значения набора данных по отношению к их стандартному отклонению. Для расчета выбросов с помощью метода Z-score в Excel можно увидеть шаги, описанные ниже.
Шаг 1:
- Во-первых, возьмите необходимый набор данных.
Шаг 2:
- Во-вторых, в клетке H5, введите следующую формулу для расчета среднее для заданных данных.
= СРЕДНЕЕ(C5:C16)
Шаг 3:
- В-третьих, рассчитайте стандартное отклонение данного набора данных в ячейке H6 по следующей формуле.
=STDEV.P(C5:C16)
Шаг 4:
- После этого вы должны определить Z -score для каждого значения данных. Для этого используется формула, приведенная ниже.
= (C5-$H$5)/$H$6
Шаг 5:
- После расчета всех Z-значения, вы увидите, что диапазон Z-значения между -1.44 и 13 Итак, мы рассматриваем значения Z-score менее -1,2 или более +1.8 для предельных значений выбросов.
- Затем введите в ячейку следующую формулу E 5 .
=OR((D51.8))
- Наконец, формула вернет TRUE значение, если конкретные данные являются выбросом, и возвращает значение FALSE
- Дважды щелкните на клетке E5 использовать Автозаполнение ручку заполнения инструмента, чтобы скопировать формулу в остальные ячейки в колонка E Таким образом, вы можете найти все оставшиеся выбросы в вашем наборе данных.
Читать далее: Как найти выбросы с помощью Z Score в Excel (с быстрыми шагами)
5. Слияние функций LARGE и SMALL для поиска выбросов в Excel
Функция LARGE и функция SMALL в Excel имеют противоположные операции. Мы будем использовать ее для нахождения наибольших и наименьших данных или значений в наборе данных соответственно. Эта функция вытягивает все данные в наборе данных, находя наименьшее и наибольшее числа. Они способны найти второе наименьшее или наибольшее, третье наибольшее или наименьшее и так далее.
Шаг 1:
- Во-первых, используйте следующую формулу в ячейке E5 с функция LARGE .
=LARGE($C$5:$C$16,1)
- Таким образом, из 12 значения, вы можете увидеть 1-е наибольшее значение, которое является 780 .
Шаг 2:
- После этого в ячейке G5 Запишите следующую формулу для нахождения наименьшего значения.
=SMALL($C$5:$C$16,1)
- Наконец, из 12 значения, вы можете увидеть 1-й наименьшее значение 110 .
- Как только вы найдете все необходимые значения, вы сможете легко указать на любые отклонения в наборе данных.
Заключение
На этом я заканчиваю эту статью. Надеюсь, она оказалась для вас полезной. После прочтения этой статьи вы сможете вычислять промахи в Excel, используя любой из методов. Пожалуйста, поделитесь с нами любыми другими вопросами или рекомендациями в разделе комментариев ниже.