[통계] 1-2 왜 그럴까? - 통계 책 첫 페이지부터 평균과 표준편차가 나온 이유 -

in #statistics5 years ago

모든 통계 책의 공통점을 말하라고 한다면 아마도 모든 책이 평균과 표준편차로 시작한다는 것일 겁니다.

왜 그럴까요? 이런 질문이 어쩌면 낯설지도 모릅니다. 너무 당연해 보이고 심지어 무의식적으로 받아들이던 것들일 지도 모르니까요. 통계를 잘 하려면, 특히 기초수준에서는 이런 당연해 보이는 것들에 대한 질문을 해야합니다. 그게 바로 통계를 잘 이해하는 지름길이지요.

자, 그럼 여기서 문제를 하나 내겠습니다.

여러분의 가까운 친구나 동료를 머릿속에 한 명 떠올려 봅시다. 그리고 그 사람을 설명해봅시다. 아마도 우리는 그 사람을 설명하기 위해 그 사람의 특징적인 부분들을 잘 설명할 단어들을 끄집어 낼 것입니다. 예를 들면 키가 작은/얼굴이 긴/눈이 큰/코가 긴/입술이 두툼한… 이런 것들이겠지요.
그렇다면, 여러분들이 가진 자료(데이터)를 어떻게 생겼는지 설명해야 한다면 어떨까요?
당연한 이야기이지만, 우리는 데이터의 특징을 잘 설명할 수 있는 대표적인 값을 가지고 우리가 가진 데이터를 설명해야 할 것입니다. 여기서 말하는 자료의 대표적 특징을 설명해주는 값이 바로 대표값입니다. 대표값에는 많은 예가 있습니다. 평균, 중간값, 최빈값, 표준편차(분산), 구간, 최소값, 최대값… 바로 여기에 평균과 표준편차가 등장합니다.

그런데, 왜? 저 많은 대표값들 중 평균과 표준편차(분산)만 자꾸 이야기 할까요?

일단 평균과 분산(표준편차)에 대해서 먼저 알아봅시다.

평균은 이렇습니다. 예를 들면 우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면, 평균 = (1 + 2 + 3 + 4 + 5) ÷ 5 = 3이 됩니다. 그렇다면 평균에는 어떤 의미와 특징이 있을까요?
평균은 자료의 중심값으로서 자료의 특성을 대표하는 값입니다. 특징으로는 1) 수학적 연산이 가능하다. 2) 모든 자료로부터 영향을 받는다. 쉽게말해서 이상한 값의 영향을 심각하게 받는다 (아웃라이어에 취약하다) 3) 분산(표준편차)의 계산 등 통계 분석의 대표적인 값으로 사용된다는 점입니다.
분산은 그럼 무엇일까요?

아마도, 초등학교나 중학교 때 외웠던 공식이 저렇게 생겼을 겁니다. 복잡해 보이고 갑자기 외우려니 잘 생각이 안난다고요? 아마 그럴겁니다. 우리가 학교를 다닐때 우리는 왜 분산이라는 공식이 저렇게 생겼는지 배우기보다는 그저 외워서 문제를 풀기에 바빴으니까요. 일단 앞의 예를 가지고 분산을 계산해 봅시다.
우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면, 평균은 3이고

그렇다면 분산은 어떤 의미일까요?

분산이란 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리를 의미 합니다.

그렇다면 위의 계산식을 다시 한 번 들여다 봅시다.

수식의 분자부분은 각 값에서 평균을 뺀 것입니다. 빼다보니 + 와 - 가 섞여 나오죠? 이것을 그냥 더하면 값이 뭉개질 것입니다. 이 문제를 해결하기 위해 제곱을 하여 강제로 모든 값을 플러스로 만들어 줍니다. 그러나, 수식의 분모부분은 다소 어렵습니다. n(자료의 개수)가 아닌 n-1(자료의 개수 -1)로 나눕니다. 이유는 이미 분자에서 평균값으로 한번씩 다 빼 주었기 때문입니다. 따라서 분자에서 사용된 자료의 개수는 n-1개라고 이해하면 됩니다.
왜냐하면 앞의 계산에서 보았듯이, 분자부분은 자료의 값이 평균값으로부터 얼마나 먼 거리에 있는지의 합입니다. 이 거리의 합을 자료의 개수로 나누었으니, 분산이 의미하는 것은 자료의 값들이 평균값으로부터 평균적으로 얼마나 멀어져 있는가 입니다. 여기서 앞의 계산의 분자부분은 제곱합이라고 표현하고, 분모부분은 자유도라고 표현합니다. 제곱합은 이해가 되는데, 자유도는 어렵지요? 다음에 기회가 있을 겁니다.

그럼 정리해 봅시다!!!

분산이란 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리이고,

이 됩니다.

문제는 이 값이 제곱으로 만들어 졌으니 루트를 씌워 다시 보정하면,

이렇게 표준편차가 됩니다. 의미상으로는 표준편차나 분산이나 같은 의미가 되는 것이지요.

그렇다면, 왜????? 평균과 분산인가???? 라는 질문입니다.

사실 중심값의 개념은 평균 말고도 중간값이나 최빈값 등 다른 후보들도 있습니다. 또한 퍼져 있는 정도를 의미하는 대표값으로 분산 외에도 구간이나 최소값, 최대값 등도 있습니다. 그런데 왜 꼭 평균과 분산이 주로 나올까요? 그이유는 다음과 같습니다. 복잡한 증명들이 있으나 모두 간단히 말하자면,

1) 계산이 쉽다. 데이터가 많아지면 중간값이나 최빈값은 계산이 아닌 찾기가 됩니다. 2) 가우스에 따르면, 데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정 방법이고 그 결과 평균값이 가장 좋은 추정값이 된다고 합니다. 복잡한 말들이 들어 있으나 간단히 말하자면 가우스가 증명한 것은 평균값이 가장 효과적이고 효율적이란 의미가 됩니다. 3) 체비체프에 따르면, 데이터의 불규칙성이 어떠하든 [평균값±2×SD] 범위 안에는 반드시 전체의 4분의 3 이상의 데이터가 존재하는 것이 증명 된다고 합니다. 즉, 데이터가 아무리 불규칙하다고 하더라도, 평균값을 중심으로 표준편차의 두배를 더하고 뺀 구간 내에 최소한 4분의 3 이상의 데이터가 무조건 들어간다는 것이지요. 결론적으로 말하자면 평균과 표준편차만 있으면 우리는 데이터를 가장 잘 표현할 수 있다는 이야기가 됩니다.

결론적으로 평균과 분산이 계산이 가장 용이할 뿐만 아니라 통계를 통해 참값을 추정하기에 가장 효율적이라는 겁니다. 믿기 어렵겠지만(?), 이 두개의 값이 그나마 가장 쉽게 우리가 통계에 접근할 수 있는 도구라는 것이지요. 우리가 공부할 통계는 평균과 분산이 기본이자 중심입니다. 특히, 분산이 매우 중요합니다. 그래서 모든 통계책에서 이 두개의 값을 가장 먼저 책 앞부분에 설명하는 것입니다.

이후에 계속 반복 되겠지만, “통계란 분산의 마법”입니다. 꼭, 기억하세요!!!

Coin Marketplace

STEEM 0.35
TRX 0.12
JST 0.040
BTC 70455.47
ETH 3561.82
USDT 1.00
SBD 4.71