목차
통계, 데이터 마이닝, 기계 학습 등에서 데이터를 분석하는 데 이상값을 찾아 제거하는 것은 매우 일반적인 작업입니다. 데이터 세트에서 이상값을 찾을 수 있는 방법은 매우 많지만 이를 제거하는 프로세스는 그리 쉽지 않습니다. 찾기. 이 기사에서는 Excel에서 이상값을 제거 하는 방법을 보여줍니다.
통합 문서 다운로드
무료 연습용 Excel 통합 문서는 다음 사이트에서 다운로드할 수 있습니다. here.
이상값 제거.xlsx
Excel에서 이상값이란 무엇입니까?
이상값 는 데이터 세트의 평균 또는 중앙값에서 상당히 벗어난 값입니다. 즉, 아웃라이어는 데이터세트의 나머지 값보다 훨씬 높거나 낮은 값입니다.
모든 타자가 50점 정도를 득점했지만 단 한 명의 타자만 1세기(100점)를 득점한 크리켓 경기를 생각해 보십시오. ) 및 다른 타자는 0점을 받았습니다. 100점과 0점은 이 경기에서 아웃라이어입니다.
아웃라이어는 데이터 분석 결과를 왜곡하고 잘못된 결과를 초래할 수 있으므로 문제가 됩니다. 따라서 원활한 데이터 세트를 얻기 위해 이상값을 찾아 제거하는 것이 좋습니다.
Excel에서 이상값을 제거하는 3가지 방법
이 섹션에서는 3가지 방법으로 데이터세트에서 이상값을 삭제 합니다. 이상치를 제거하는 것은 까다로운 과정이므로 전체 기사를 주의 깊게 읽으십시오.
1. 엑셀 함수를 활용하여 계산 없이 평균 계산하기Outliers
Excel TRIMMEAN 함수 를 사용하여 이상값을 제외하고 주어진 데이터 세트의 평균을 계산할 수 있습니다. 제외할 데이터 포인트는 백분율로 제공됩니다. 백분율 값은 십진수 형식 또는 백분율 형식으로 입력할 수 있습니다.
이상값 없이 평균을 계산하는 구문은
=TRIMMEAN(배열, 백분율) 입니다.여기서
- array = 트리밍하고 평균 결과를 계산할 데이터의 범위
- 퍼센트 = 제외할 데이터 포인트 수
이 기능을 구현하여 이상값을 제거한 결과를 계산하는 방법을 살펴보겠습니다.
위 그림을 고려하십시오. 셀 B5에서 B14 까지의 데이터가 있습니다. 여기서 대부분의 숫자는 20에서 27 사이이지만 두 값( 0 및 100 )은 이러한 값에서 멀리 떨어져 있습니다. 이것이 우리 데이터세트의 이상값 입니다.
데이터세트의 경우 Excel TRIMMEAN 함수를 사용하여 이상값 없이 평균(average)을 계산하는 공식은 다음과 같습니다.
=TRIMMEAN(B5:B14,0.2)
여기서
- B5:B14 = 잘라낼 데이터의 범위와 평균 결과를 계산
- 0.2 (또는 20%) = 제외할 데이터 포인트의 수
데이터세트의 숫자가 나머지 데이터세트에서 20% 떨어진 경우
데이터 세트에 따라 수식을 작성하고 Enter 를 누르면 이상치 없이 계산된 평균을 얻을 수 있습니다. 데이터 세트용. 우리의 경우 셀 E6 은 23.50 인 계산된 평균을 보유합니다.
답변이 올바른지 여부를 확인하기 위해 AVERAGE 함수를 실행합니다. B5:B14 범위에 있는 모든 값의 평균( 28.80 )을 반환하는 셀 E5 의 . 그리고 셀 E7 에서 이상치 값을 포함하는 셀을 제외한 모든 셀을 수동으로 입력하여 또 다른 AVERAGE 함수를 실행하고 결과로 23.50 의 반환값을 얻었습니다.
따라서 TRIMMEAN 함수는 Excel에서 평균을 계산하는 동안 주어진 데이터 세트에서 이상값을 성공적으로 제거할 수 있다고 말할 수 있습니다.
자세히 알아보기: 엑셀 수식 지우는 방법 (7가지 이상의 방법)
2. Excel의 데이터 세트 및 라인 차트에서 이상값 제거
다음 그림을 확인하십시오. 선 그래프를 생성한 데이터가 있습니다. 선 그래프에서 데이터 포인트 4와 8에 이상값 이 있음을 쉽게 알 수 있습니다.
이제 어떻게 평활화할 수 있는지 알아보겠습니다. 데이터 세트에서 이상 값을 제거하여 라인 차트를 제거합니다.
다른 셀(이 경우 셀 H6 )에 다음 수식을 작성합니다.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA(),C6)
여기서는
- C6 = 데이터셋
- C5의 첫 번째 데이터를 담고 있는 셀 = 첫 번째 데이터 셀 위의 셀
- C7 = 첫 번째 데이터 셀 아래의 셀
- $E$6 = 데이터 포인트 간의 차이 .
보고우리의 데이터는 데이터 포인트가 다른 데이터 포인트와 10단위 다를 때 이상치 로 지정되는 것 같습니다. 그래서 우리는 셀 E6 에 10 을 넣고 절대 셀 참조 로 만들어 전체 데이터 세트를 스캔하고 계산하는 동안 이 셀이 고정되도록 합니다.
Enter 를 누른 후 결과 셀 H6 에 여전히 첫 번째 데이터가 나타나는 것을 볼 수 있습니다. 여기서 해야 할 일은 채우기 핸들 을 드래그하여 나머지 셀에 수식을 적용할 수 있도록 수식을 구성하기만 하면 됩니다.
이제 채우기 핸들 로 행을 아래로 드래그하면 이상값을 포함하고 있던 셀이 이제 #N/A 로 채워지는 것을 볼 수 있습니다.
이제 꺾은선형 차트를 보면 외부 값이 없는 평평한 그래프입니다.
수식 분류
=IF(
결과를 추출할 값을 비교할 것이므로 수식을 다음과 같이 시작합니다. IF 조건.
=IF(AND(
현재 데이터 포인트와 위 셀과 아래 셀을 비교하겠습니다. . 그리고 두 비교가 모두 true인 경우에만 결과로 데이터 포인트를 표시합니다. 따라서 "둘 다" 비교를 처리해야 하므로 AND 함수 .
<를 활용해야 합니다. 0> =IF(AND(ABS(데이터 포인트를 뺄 때 일부 데이터는 음수 값을 던질 수 있습니다. 그리고 우리는 아니음수 값은 항상 "차이가 10일 때 데이터 제거" 조건과 모순되므로 음수 값을 처리하려고 합니다. 따라서 항상 긍정적인 결과를 얻으려면 비교를 절대값 함수 로 래핑해야 합니다.
=IF(AND(ABS(C6-C5)> ;$E$6
여기에서 첫 번째 비교를 시작했습니다. 위의 값에서 현재 값을 빼고 결과가 셀 E6<2에 저장된 차이 수준보다 큰지 확인합니다> 그리고 셀을 절대 참조 로 만들어 셀 값을 잠근 상태로 유지합니다.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6 -C7)>$E$6)
다음으로 쉼표로 구분된 비교의 두 번째 부분으로 현재 데이터 포인트를 다음 데이터 포인트와 비교합니다.
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6),NA()
이제 쉼표를 입력하고 AND 함수가 모두 참이면 NA 함수 를 거기에 넣기로 결정합니다.
=IF(AND(ABS(C6-C5) >$E$6,ABS(C6-C7)>$E$6),NA(),C6)
그리고 AND 함수가 참이 아니면 우리는 실제 데이터 포인트를 IF False 값으로 반환하려고 합니다. 그래서 우리는 다음을 입력합니다. e를 쉼표로 입력하고 거기에 셀 참조 번호 C6 를 전달합니다.
자세히 알아보기: Excel에서 데이터 유효성 검사를 제거하는 방법(5가지 방법)
유사 읽기
- 엑셀에서 헤더를 제거하는 방법(4가지 방법)
- 점선 제거Excel(5가지 빠른 방법)
- Excel에서 그리드를 제거하는 방법(6가지 쉬운 방법)
- Excel에서 테두리를 제거하는 방법(4가지 빠른 방법)
- 엑셀에서 호환성 모드를 제거하는 방법(2가지 쉬운 방법)
3. Excel에서 수동으로 이상값 제거
Excel에서 이상값을 제거하는 또 다른 쉬운 방법은 데이터세트의 값을 정렬하고 상위 및 하위 값을 수동으로 삭제하는 것입니다.
정렬하려면 데이터,
- 데이터세트 를 선택합니다.
- Sort & 편집 그룹에서 를 필터링하고 내림차순 정렬 또는 내림차순 정렬 을 선택합니다.
- 이 경우 최소 정렬 을 선택했습니다. 데이터세트의 숫자를 오름차순으로 정렬하여 가장 작은 숫자를 위쪽에, 가장 큰 숫자를 아래쪽에 배치했습니다.
이제 해당 데이터를 수동으로 삭제하기만 하면 됩니다. 데이터세트 이상값을 무료로 만듭니다.
큰 데이터세트로 작업하는 동안에는 이 프로세스를 따르지 않는 것이 좋습니다. 데이터 세트가 작고 보기 쉬운 경우에만 이 절차를 적용할 수 있습니다. 그렇지 않으면 구현하지 마십시오.
자세히 알아보기: Excel에서 정렬을 제거하는 방법( 3가지 쉬운 방법)
결론
이 기사에서는 Excel에서 이상값을 제거 하는 방법을 설명했습니다. 이 기사가 귀하에게 많은 도움이 되었기를 바랍니다. 관련하여 궁금한 사항이 있으시면 언제든지 문의주세요주제.