특이 치는 데이터의 대부분의 값보다 훨씬 높거나 낮은 값입니다. Excel을 사용하여 데이터를 분석 할 때 특이 치가 결과를 왜곡시킬 수 있습니다. 예를 들어, 데이터 세트의 평균이 실제로 값을 반영 할 수 있습니다. Excel은 특이 치를 관리하는 데 도움이되는 몇 가지 유용한 기능을 제공하므로 살펴 보겠습니다.
빠른 예
아래 이미지에서 특이 치는 쉽게 발견 할 수 있습니다. Eric에 할당 된 두 값과 Ryan에 할당 된 173 값입니다. 이와 같은 데이터 세트에서는 이러한 특이 치를 수동으로 발견하고 처리하기가 쉽습니다.
더 큰 데이터 집합에서는 그렇지 않습니다. 특이 치를 식별하고 통계 계산에서 제거하는 것이 중요합니다. 이것이 바로이 기사에서 수행 할 방법입니다.
데이터에서 특이 치를 찾는 방법
데이터 세트에서 특이 치를 찾으려면 다음 단계를 사용하십시오.
- 제 1 사분 위와 제 3 사 분위수를 계산하십시오 (우리는 그것들에 대해 조금 이야기 할 것입니다).
- 사 분위 간 범위를 평가하십시오 (자세한 내용은 아래에서 자세히 설명하겠습니다).
- 데이터 범위의 상한과 하한을 반환합니다.
- 이 경계를 사용하여 외부 데이터 포인트를 식별하십시오.
아래 이미지에 표시된 데이터 세트의 오른쪽에있는 셀 범위가이 값을 저장하는 데 사용됩니다.
시작하자.
1 단계 : Quartiles 계산
데이터를 분기로 나누면 각 세트를 사 분위수라고합니다. 범위에서 가장 낮은 25 %의 숫자는 1 사 분위를 구성하고 다음 25 %는 2 사 분위를 구성합니다. 가장 널리 사용되는 특이 치의 정의는 1 사 분위 이하의 1.5 사 분위수 범위 (IQR) 이상, 3 사 분위수 위의 1.5 사 분위수 범위에 해당하는 데이터 요소이므로 먼저이 단계를 수행합니다. 이러한 값을 결정하려면 먼저 사 분위가 무엇인지 알아 내야합니다.
Excel은 사 분위수를 계산하기위한 QUARTILE 함수를 제공합니다. 배열과 쿼트라는 두 가지 정보가 필요합니다.
=QUARTILE(array, quart)
그만큼 정렬 평가하고있는 값의 범위입니다. 그리고 쿼트 반환하려는 사 분위수를 나타내는 숫자입니다 (예 : 1의 경우 1성 사 분위수, 2 분위수의 경우 2 등).
노트 : Excel 2010에서 Microsoft는 QUARTILE 기능 개선으로 QUARTILE.INC 및 QUARTILE.EXC 기능을 출시했습니다. QUARTILE은 여러 버전의 Excel에서 작업 할 때 이전 버전과 호환됩니다.
예제 테이블로 돌아 갑시다.
1을 계산하려면성 사 분위수 우리는 셀 F2에서 다음 공식을 사용할 수 있습니다.
=QUARTILE(B2:B14,1)
수식을 입력하면 Excel에서 쿼트 인수에 대한 옵션 목록이 제공됩니다.
3을 계산하려면rd 사 분위수의 경우 F3 셀의 이전 수식과 같은 수식을 입력 할 수 있지만 1 대신 3을 사용합니다.
=QUARTILE(B2:B14,3)
이제 사 분위수 데이터 포인트가 셀에 표시됩니다.
2 단계 : 사 분위수 범위 평가
사 분위수 범위 (또는 IQR)는 데이터 값의 중간 50 %입니다. 1 사 분위수 값과 3 사 분위수 값의 차이로 계산됩니다.
우리는 1을 빼는 셀 F4에 간단한 공식을 사용할 것입니다.성 3의 사 분위수rd 사 분위수 :
=F3-F2
이제 사 분위 범위가 표시되는 것을 볼 수 있습니다.
3 단계 : 하한과 상한을 반환
하한과 상한은 사용하려는 데이터 범위의 가장 작고 가장 큰 값입니다. 이 바운드 값보다 작거나 큰 값이 특이 치입니다.
IQR 값에 1.5를 곱한 다음 Q1 데이터 포인트에서 빼서 F5 셀의 하한을 계산합니다.
=F2-(1.5*F4)
노트 : 이 수식의 대괄호는 곱하기 부분이 빼기 부분보다 먼저 계산되기 때문에 필요하지 않지만 수식을 쉽게 읽을 수 있습니다.
F6 셀의 상한을 계산하기 위해 IQR에 1.5를 다시 곱하지만 이번에는 더하다 Q3 데이터 포인트로 :
=F3+(1.5*F4)
4 단계 : 특이 치 식별
이제 모든 기본 데이터가 설정되었으므로 이제 하한 값보다 낮거나 상한 값보다 높은 외부 데이터 포인트를 식별해야합니다.
OR 함수를 사용하여이 논리적 테스트를 수행하고 C2 셀에 다음 수식을 입력하여 이러한 기준에 맞는 값을 표시합니다.
=OR(B2<$F$5,B2>$F$6)
그런 다음 해당 값을 C3-C14 셀에 복사합니다. TRUE 값은 특이 치를 나타내며, 보시다시피 데이터에 2 개가 있습니다.
평균 평균을 계산할 때 특이 값 무시
QUARTILE 함수를 사용하여 IQR을 계산하고 가장 널리 사용되는 이상 값 정의를 사용할 수 있습니다. 그러나 값의 범위에 대한 평균 평균을 계산하고 특이 치를 무시할 때는 더 빠르고 쉽게 사용할 수있는 기능이 있습니다. 이 기술은 이전과 같이 특이 치를 식별하지는 않지만, 이상 치를 고려할 수있는 것에 유연하게 대응할 수 있습니다.
우리가 필요로하는 기능은 TRIMMEAN이라고하며 아래에서 그 구문을 볼 수 있습니다.
=TRIMMEAN(array, percent)
그만큼 정렬 평균을 구할 값의 범위입니다. 그만큼 퍼센트 데이터 세트의 상단 및 하단에서 제외 할 데이터 포인트의 백분율입니다 (백분율 또는 10 진수 값으로 입력 할 수 있음).
이 예에서는 아래 공식을 D3 셀에 입력하여 평균을 계산하고 특이 치의 20 %를 제외했습니다.
=TRIMMEAN(B2:B14, 20%)
특이 치를 처리하기위한 두 가지 기능이 있습니다. 일부보고 요구에 대해이를 식별하든 평균과 같은 계산에서 제외하든 Excel에는 필요에 맞는 기능이 있습니다.