[통계] Bessel's correction : 표본의 분산, n이 아닌 n-1로 나누는 이유

티스토리 뷰

수학

[통계] Bessel's correction : 표본의 분산, n이 아닌 n-1로 나누는 이유

Lim Sinclair 2023. 6. 6. 23:18

모집단의 분산은 다음과 같이 정의된다.

$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$

# $N$은 모집단의 크기, $\mu$는 모집단의 평균

표본의 분산은 다음과 같이 정의된다.

$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

# $n$은 표본의 크기, $\bar{x}$는 표본의 평균

언뜻 직관적으로 생각해보면, 표본평균을 구할 때와 마찬가지로 $n-1$이 아닌 $n$으로 나누어야 할 것 처럼 보인다. 그러지 않고 $n-1$로 나누는 것을 Bessel’s correction(베셀보정)라 부르는데, 이러한 보정을 해주는 이유는 그렇게 해야만 $s^2$가 $\sigma^2$의 불편추정량이 되기 때문이다. 즉,

$E(s^2) = \sigma^2$

(보정 없이 $n$으로 나눌 경우, 항상 더 과소 추정하게 된다.)

아래는 이에 대한 대수적 증명이다.

먼저, 베셀 보정을 거치지 않은 표본분산을 아래와 같이 정의한다.

$s_n^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$

이제, 이 $s_n^2$의 기대값을 구한다.

$E(s_n^2) = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2)$

$=E(\frac{1}{n}\sum_{i=1}^{n}((x_i - \mu) + (\mu - \bar{x}))^2)$

$= E(\frac{1}{n}\sum_{i=1}^{n}((x_i - \mu)^2 + 2(x_i - \mu)(\mu - \bar{x}) + (\mu - \bar{x})^2))$

$ = E(\frac{1}{n}\sum_{i=1}^{n}\left\{(x_i - \mu)^2 - 2(x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu )^2\right\})$

$ = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - 2E(\frac{1}{n}\sum_{i=1}^{n}\left\{(x_i - \mu)(\bar{x} - \mu)\right\}) + E(\frac{1}{n}\sum_{i=1}^{n}(\bar{x} - \mu )^2) $

$i$와 관련 없는 부분들을 시그마 밖으로 꺼낸다.

$E(s_n^2) = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - 2E((\bar{x} - \mu)\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)) + E((\bar{x} - \mu )^2)$

$ = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - 2E((\bar{x} - \mu)(\frac{1}{n}\sum_{i=1}^{n}(x_i) - \mu)) + E((\bar{x} - \mu )^2) $

$ = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - 2E((\bar{x} - \mu )^2) + E((\bar{x} - \mu )^2) $

$ = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - E((\bar{x} - \mu )^2) $

이때, $E((\bar{x} - \mu )^2) $ 는 표본평균의 분산,

즉, $Var(\bar{x}) = \frac{\sigma^2}{n}$ 이므로,

$E(s_n^2) = E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) - \frac{\sigma^2}{n}$

또한, $E(\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2) = Var(x) = \sigma^2$ 이므로,

$ E(s_n^2) = \sigma^2 - \frac{\sigma^2}{n} = \frac{n-1}{n}\sigma^2 $

$ \frac{n}{n-1}E(s_n^2) = \sigma^2 $

따라서, $ E(s_n^2) \leq \sigma^2 $ 이므로 $s_n^2$는 $\sigma^2$의 편향추정량이다.

또한,

$ \sigma^2 = \frac{n}{n-1}E(s_n^2) = E(\frac{n}{n-1}s_n^2) $

$ = E(\frac{n}{n-1}\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 ) = E(\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2) $

$ = E(s^2) $ $ (\because s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2) $

즉, 베셀 보정을 수행한($n$ 대신 $n-1$으로 나눈) $ s^2 $에 대하여 $ E(s^2) = \sigma^2 $ 가 성립하므로,

$ s^2 $는 $ \sigma^2 $의 불편추정량이다.

저작자표시 비영리 변경금지

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

AI 공부 기록

티스토리 뷰

[통계] Bessel's correction : 표본의 분산, n이 아닌 n-1로 나누는 이유

티스토리툴바