관리 메뉴

느루독서심리연구센터(010-2788-3025)

[논문을 위한 통계] 통계 공부하자! - 8번으로 끝내는 통계 기초! (2) 본문

논문 잘 쓰는 법/논문을 위한 통계학 강의

[논문을 위한 통계] 통계 공부하자! - 8번으로 끝내는 통계 기초! (2)

느루독서심리연구센터(010-2788-3025) 2018. 1. 19. 22:09
728x90
SMALL


이 글은 한국상담학신문(262-21-00646)에서 발행하는 글입니다.


Key word: 통계(statistics), 통계 기초, 대푯값, 평균값, 히스토그램, 중앙값, 최빈값, 범위편차, 분산


1. 평균은 만능?



역시... 위에 박사(box)보면 머리 아프시죠?^^ 딱딱한 정의는 여기까지만 하고! 여러분이 생각하는 평균에 대해 이야기 해보도록 할까요?^^ '모든 수를 더하고, 더한 개수로 나눈다.' 정도의 평균을 구하는 방법은 말하자 않아도 알고 계실 거라 생각하기에 평균을 어떻게 생각하는지에 대해 이야기하도록 하겠습니다. 


'나 책 많이 읽어!라고 주장하는 자녀들에게 여러분은 어떤 말을 하시나요?


장난스럽게 '거짓말 하지마~', '니가?'와 비슷한 말을 하시겠지만, 친구의 말을 확인하기 위해서 '일주일에 평균적으로 몇 권 읽는데?'라는 질문도 어렵지 않게 하실 겁니다. 


그런데 이 말에 대답은 어떻게 해야 할까요? 


책을 정기적으로 읽는 사람이라면 매일 1시간씩 읽으면, 일주일에 2권/3권 정도는 읽더라'라고 쉽게 대답할 수 있습니다. 하지만 저 같은 경우에는 책을 비정기적으로 읽기 때문에 알고 싶을 때는 하루에 2권씩도 읽지만, 읽지 않을 때는 한 달 이상씩 읽지 않을 때도 있습니다. 그래서 일주일에 평균 3권이라 둘러대지만, 이건 정확하게 제가 읽은 책의 권수의 평균을 나타낸 것일까요? 


이런 상황에서 평균은 '제가 읽은 책의 권수'라는 자료를 대표할 수 있는 값으로 쓸 수 없는 것입니다. 평균이 만능이 아닌 경우를 또 살펴보겠습니다!!


사장을 포함해서 직원이 6명인, 5개의 스타트 업 벤처기업이 있습니다. 5개의 회사 모두 전월대비 270만 원의 이익이 증가했는데요. 이 270만 원을 6명의 직원에게 성과급으로 지급했지만, 배분은 다음과 같이 각각의 회사가 다릅니다. 



직원 한 명의 평균 성과급을 구해보겠습니다!!




어느 회사를 따질 필요도 없이 평균 상과급은 동일합니다. 하지만 계산이 틀린 것도 아닌데 왠지 이상하지 않나요?^^


A사의 경우는 모든 사원의 성과급이 똑같기 때문에 평균이 굳이 필요하지도 않습니다. 그렇다면 B사와 D사를 한 번 봅시다!



B사의 경우 성과급 평균이 45만 원이라는 것은 빠르게 계산 가능할 것입니다. D사의 경우도 비슷하게 성과급 자료가 대칭적이기 때문에 45만 원을 빠르게 구할 수 있습니다. 그렇다면 C사는 어떤가요? 



성과급이 차이가 명백하게 드러나고, 평균 성과급이 45만 원이지만, 실제로 45만 원 정도의 돈을 지급받는 직원은 한 명도 없습니다. 마지막으로 E사를 볼까요?




사장만 170만 원을 받고 나머지 직원들은 20만 원씩만 받았습니다. 이런 상황에서 평균 성과급 45만원이라고고 주장하는 것은 터무니없는 것이죠. 이렇게 우리가 보통 일상에서 사용하는 '평균'이라는 값은 매우 편리한 값이기는 하지만 모든 상황에서 통용될 수 있는 만능 도구는 아니라는 것 명심해 주시길 바랍니다!! 


2. 히스토그램


위 글에서 평균값이 만능이 아니라는 말을 했습니다. 사실 어떤 학문을 보더라도 모든 상황에서 이용할 수 있는 도구는 그렇게 많지 않습니다. 특히나 통계에서는 각 상황에 맞도록, 적재적소에 맞는 도구를 사용해야만 정확한 결론을 도출할 수 있는 것입니다. 그래서 이번에는 위의 회사들을 조금 더 이야기 하면서 새로운 도구인 히스토그램에 대해 말해보고자 합니다. 


성과급이 같은 A사는 잠시 한 쪽으로 제쳐두고, B사를 생각해 볼까요?



이것을 10만 원 단위로 단계를 구분해서 정리해 보겠습니다~ 



갑자기 여러 용어가 튀어 나왔으니... 짚고 넘어 갈까요?


'계급'은 10만원 단위로 나눈 각 단계를 말하고, 이 계급에 포함되는 자료의 개수를 '도수'라고 합니다. 각각의 계급의 도수를 전체 도수로 나눈 값은 '상대도수'라고 합니다. 그리고 이를 위처럼 정리한 표를 '도수분포도'라고 합니다. 또한 15만 원 이상 ~ 25만 원 미만과 같이 a이상 b미만으로 구분한 계급에서 a와 b의 차이, b-a를 '계급의 크기'라고 합니다. 여기서는 10만원이 됩니다. 그리고 중앙에 있는 값인   를 '계급값'이라고 합니다. 그리고 중앙에 있는 값인 를 '계급값'이라고 합니다. 

마지막으로 이런 표를 다음처럼 더 알아보기 쉽게 만든 것을 '히스토그램'이라고 합니다. 



B사의 자료를 가지고 계급의 크기가 10만 원인 히스토그램을 그려보았는데요. 계급의 크기를 바꾸면 어떻게 될까요? 


우선 10만 원보다 작은 값으로 계급의 크기를 바꿔보겠습니다. 여기서는 5만 원으로 바꿔봅시다! 계급의 크기가 작아졌으니, 더 세분화되고 자세히 볼 수 있을 것 같죠? 마치 자의 눈금이 더 많이 생긴 것처럼요.




무엇이 바뀌었나요? 우선 계급에 개수가 바뀌었는데요. 그와 동시에 도수가 0인 계급도 증가해 버렸죠. 눈금이 많아졌으니 더 자세히 볼 수 있을 것이라 생각했는데 0으로 보이는 자료가 증가해서 의미가 없어 보이거나, 알아보기 더 힘들어졌습니다.^^


그렇다면, 반대로 계급의 크기를 늘여보겠습니다. 20만원으로 늘여볼까요.



계급의 크기를 늘여보니 이번에는 간격이 너무 커서 자료의 특징이 잘 드러나지 않는 일이 생겼습니다. 


이처럼 자료를 변환하고 표현할 때는 적절한 계급의 크기를 설정하지 않으면, 자료의 특징을 제대로 파악하기 어렵습니다. 따라서 적절한 계급의 크기와 개수를 정하는 일은 매우 중요하다고 할 수 있습니다. 


그렇다면 계급이 무엇인지, 히스토그램이 무엇인지 않았는데, 이를 어디에 적용해야 하는지에 대해서 알아보겠습니다.


우선 앞의 자료를 참고해서 A사부터 E사까지의 히스토그램을 그려보겠습니다. 




A사처럼 막대가 단하나뿐인 분포를 '단봉분포'라고 합니다. 반면에 다른 회사들처럼 막대가 2개 도는 그 이상 있는 경우는 '다봉분포'라고 합니다. 또 잘 보시면 A사, D사는 좌우가 같기 때문에, 대칭형이라고 할 수 있겠네요. B사는 좌우대칭이라고 할 수는 없지만, 좌우대칭에 가까운 모양을 가지고 있고, C사와 E사와 좌우비대칭이라고 확실히 이야기 할 수 있습니다.


다시 히스토그램의 쓰임에 대한 이야기로 돌아가자면 자료를 나타내는 것에 있어 평균이 절절한지를 검증할 수 있는 도구입니다.


히스토그램이 좌우대칭이거나 또는 이에 가까운 모양을 가지고 있고, 단봉분포일 때는 평균을 대푯값으로 사용할 수 있습니다. 즉 A사의 경우에는 평균을 사용해도 된다는 것입니다. 하지만 좌우대칭이더라도 D사와 같이 다봉분포이거나, B사와 같이 대칭이 조금 무너진 상태에서는 평균을 사용하는 것에 무리가 있습니다.


3. 대푯값 - 중앙값, 최빈값


어떻게 보면 지금까지 계속해서 평균에 대한 이야기를 해 왔는데요. 여러분이 잘 아시는 '모든 수를 더해서 더한 개수만큼 나눈다.'라는 평균은 '산술평균'이라고 합니다. 그리고 이처럼 어떤 자료들 전체를 대표할 수 있는 값을 '대푯값'이라고 합니다. 즉, 여러분은 이때까지 산술평균을 대푯값으로 사용해 오신 것인데요. 대푯값에는 중값, 최빈값 등 여러 가지가 더 있습니다. 


그 중에서도 이번에는 '중앙값'에 대해 알아보겠습니다. 


왜 지금까지 계산한 평균 말고 다른 대푯값이 필요한지에 의문을 느끼실 수도 있습니다. 하지만 그건 앞서 예시로 사용한 E회사의 경우를 보면 잘 알 수 있습니다. 



사장만 170만 원을 받는 상황에서도 성과급의 평균은 45만원입니다. 하지만 이 값을 직원들의 성과급 자료의 대푯값으로 하기에는 뭔가 이상한 부분이 있죠. 성과급 평균보다 적은 돈을 받는 사람이 다수이기 때문입니다. 


170만 원을 받는 사람이 전체의 평균에 영향을 미치는 것과 같은 상황에서는 평균과는 다른 대푯값이 필요합니다. 


중앙값은 영어로는 메디안(median)이라고 합니다. 이 중앙값은 정확하게 어떻게 구하는 것일까요? 


그 방법은 중앙값의 이름에서 힌트를 얻을 수 있습니다. '중앙'이라는 이름처럼 중앙값은 자료를 순서대로 나열하고 정중앙에 있는 값을 구하는 것입니다. 홀수인 경우, 중앙에 위치한 값이 있을 것이고, 짝수인 경우에는 중앙에 가까운 두 값의 평균을 사용하면 됩니다. 


예를 들어, E사의 경우 6명의 직원, 자료개수가 짝수이기 때문에 중앙값은 다음과 같습니다. 



따라서 각 회사의 중앙값을 구하면 다음과 같습니다. 



이번에는 최빈값에 대해서 알아볼까요? 


최빈값은 영어로는 모드(mode)라고 합니다. 도수가 가장 많은 계급의 계급값을 의미합니다. 가장 높은 빈도를 가진 계급을 대푯값으로 쓴다는 것입니다. 따라서 A사와 B사의 경우에는 45, D사는 70, E사는 20이라고 말할 수 있습니다. 하지만 C사의 경우에는 가장 많은 자료의 값이 20과 70이 함께 나타납니다. 이 때문에 최빈값을 정할 수 없고, C사에서는 최빈값이 유효한 대푯값이라고 할 수 없는 것입니다. 

4. 범위, 편차, 분산


이번에는 자료의 분포 정도에 대해서 알아보겠습니다. A사와 B사를 예로 들어 생각해 보겠습니다.

 


A사와 B사의 평균, 중앙값, 최빈값은, 모두 같습니다. 하지만 A사의 자료들이 B사에 비해 대푯값의 주위에 몰려 있습니다. 이러한 자료의 분포 정도를 알기 위해서는 어떻게 해야 할까요? 


가장 간단한 방법으로는 자료의 범위를 구하는 방법이 있습니다.


범위, 자료의 최댓값에서 최솟값을 뺀 값을 말하는데요. 분포 정도를 구하는 방법들 중에서는 가장 부적절하지만, 간단히 구할 수 있다는 장점이 있습니다. 


각 회사의 범위를 구하면 다음과 같습니다.



하지만 위에서도 말씀드렸듯이 범위는 분포 정도를 구하는 방법들 중 가장 부적절하기 때문에 실제로 잘 쓰이지는 않습니다. 


따라서 분포 정도를 구하는 다른 방법을 배워보겠습니다!


평균이 만능이 아니라고 했지만, 가장 익숙하고 많이 사용하는 대푯값입니다. 따라서 평균값 주위에 자료가 어떻게 분포되어 있는지 본다면, 자료 전체의 상황을 파악할 수 있을 겁니다.


먼저 자료와 평균의 차이에 지중해 볼까요. 이 값을 편차라고 합니다.



위의 표를 보니까 편차의 합은 0입니다. 따라서 편차의 합을 자료의 개수로 나눈 것, 편차의 평균의 0입니다.


자료와 평균의 차이에 주목해서 평균을 알아낸 후, 그것을 분포의 척도로 하려고 했습니다만, 편차의 평균이 항상 0이기 때문에 척도로는 부적절합니다. 이것은 편차에 음(-)의 값이 있기 때문인데 이것을 없애기 위해서는 +, -부호를 제거한 절댓값이나 제곱을 이용해야 됩니다.


그럼 우선 편차의 절댓값 평균을 구해볼까요.



이러한 편차의 절댓값 평균을 평균편차라고 합니다. 문제가 해결된 것처럼 보이지만 또 다른 문제가 있습니다. 절댓값을 미분할 수 없는 문제점 등 때문에 평균편차를 다루는 것이 매우 어렵고, 이 때문에 실제 상황에서 잘 쓰이지 않습니다. 그렇다면 무엇을 사용할까요?


결론은 편차 제곱의 평균, 분산을 사용합시다.


분산도 분포의 퍼진 정도를 나타내는 값으로 적절하지만 실제로는 분산의 양의 제곱근을 이용할 때가 많습니다. 수를 간단하고 작게 만들수록 결과를 이용해 결론을 내는 것이 편리하기 때문입니다. 


분산의 양의 제곱근을 표준편차라고 합니다. 각 회사의 표준편차 값을 계산하면 다음 표와 같습니다.  



표준편차로 본 분포 정도는 A사, B사, D사, C사, E사의 순서로 점점 커집니다. 직감적으로 느낀 분포, 표준편차로 본 분포, 히스토그램으로 본 분포 순서가 서로 같다면, 이 방법은 타당하다고 볼 수 있을 것입니다. 하지만 C사와 D사의 경우에는 분포 정도를 표준편차로 비교는 가능하지만 실제 자료에서 차이가 크지는 않다는 점은 추측이 어려운 점이 있습니다.


긴 글 따라오시느라 수고하셨습니다. 다음에는 확률 기초를 다져보겠습니다!! 



-한국상담학신문-

건강한 가족회복을 위해 최선을 다하겠습니다!

제휴 및 강의 문의: loving3025@hanmail.net


LIST
Comments