관리 메뉴

느루독서심리연구센터(010-2788-3025)

[빅데이터 통계 R 프로그램(6)] 데이터 분석 시작! (03) 성별에 따른 월급차이 본문

논문 잘 쓰는 법/통계 R 공부하자

[빅데이터 통계 R 프로그램(6)] 데이터 분석 시작! (03) 성별에 따른 월급차이

느루독서심리연구센터(010-2788-3025) 2018. 1. 29. 17:05
728x90
SMALL

이 글은 한국상담학신문(265-21-00636)에서 발행하는 글입니다.


key word: R, R Studio, 데이터 분석, 실전 데이터 분석


여러분은 이제 논문을 위한 데이터 분석 준비가 모두 끝났습니다. 프로젝트를 만들고, 데이터도 준비를 끝냈습니다. 이제 '한국인의 삶, 월급을 중심으로'라는 논문에서 여러분이 세운 첫번째 가설을 검증할 것입니다. 


그 가설은 '성별에 따라 월급이 다를 것이다.'라는 가설입니다. 

여러분은 이 가설을 검증하기 위해 다음과 같은 분석 절차를 세웠습니다. 



1. 변수검토 및 전처리


-성별 변수 검토 및 전처리

먼저 성별 변수에 대해 변수를 검토하고 전처리를 해봅시다. 


'class()'로 'sex(성별) 변수'의 타입을 파악하고, 'table()'로 각 범주에 몇 명이 있는지 알아보겠습니다. 


콘솔 창에서 출력 결과를 보면 sex(성별)는 "numeric" 타입이고 1과 2로 구성된다는 것을 알 수 있습니다. 또한 1은 7578명, 2는 9086명이 존재하는 것을 알 수 있습니다. 



*여기서 numeric 타입이라는 것은 '연속 변수'라는 것을 말합니다. 키, 몸무게, 소득처럼 연속적이고 크기를 의미하는 값으로 구성된 변수입니다. 크기를 지닌 수이기 때문에 더하기 빼기, 평균 등의 산술이 가능합니다. 


코드북을 살펴보면, 성별 변수의 값에서 1은 남자를, 2는 여자를 의미하는 것을 알 수 있습니다. 모르거나 미응답의 경우는 9로 설정되어 있습니다. 


성별과 월급의 관계를 살피고 있기 때문에 값을 9로 가지는 경우는 분석 데이터에서 제외해야 된다는 것을 깨닫게 됩니다. 


그렇다면 이상치를 확인해 봅시다.


결과에는 1과 2만 있고 9 또는 그 외의 값은 존재하지 않는 것을 알 수 있습니다. 이상치가 없기 때문에 이상치를 결측 처리하는 절차를 건너뛰어도 됙되겠죠? 만약 이상치가 발견된다면 아래와 같은 명령어를 실행시켜 이상치를 결측 처리한 후 결측치가 제대로 만들어 졌는지 확인해야 합니다. 



sex(성별)의 변수 값은 1과 2로 되어 있습니다. 갑값의 의미를 이해하기 쉽도록 문자 'male'과 'female'로 바꾸고, table()과 qplot()을 이용해 표와 그프로 바꾼 값이 반영되었는지 확인해 보도록 하겠습니다. 



-월급 변수 검토 및 전처리


다음으로 월급 변수를 검토해보겠습니다. 

코드북을 보면 월급은 '이일한 달의 월 펴평균 임금'을 의미하고 1만 원 단위로 기록되어 있습니다. income(월급) 변수를 검토하고 qplot()으로 그래프를 그려 분포를 확인해 봅시다. 


성별 변수는 범주 변수이기 때문에 table()로로 표 형태로 각 범주의 빈도를 확인하면 특징을 파악할 수 있지만, 월급 변수의 경우 연속변수이기 때문에 table()을 이이용해 표를 만들면 너무 많은 항목이 출력력되어 비효율적입니다.


연속 변수는 summary()로 요약 통계량을 확힌해야 특징을 파악할 수수 있습니다. 



그래프를 그려주는 함수인 qplot()기본 설정이 최댓값까지 표현하도록 기본값이 설정되어 있습니다. 출력된 그래프를 보면 x축이 2500까지 표현되어 대다수를 차지하는 0-1000사이의 데이터가 자세히 표현되되지 않습니다. x축의 출력값을 제한하는 함수인 xlim()을 사용해 이를 조정해 보겠습니다. 



코드북을 보면 월급은 1-9998 사이의 값을 지니고, 모름 또는 무응답의 경우 9999로 설정되어 있있다는 것을 알 수 있습니다. 이 정보를 바탕으로 전리 작업을 하겠습니다. 무응답인 9999를 가지는 값은 배해야 되니까요. 다음과 같은 명령어를 치고 이이상치를 확인해 보겠습니다. 



출력 결과를 보면 최솟값이 0, 최댓갑값이 2400이고, 결측치가 12030개 있다는 것을 알 수 있습니다. 직업이 없어 월급을 받지 않는 응답자가 존재하기 때문입니다. 따라서 월급 변수를 이용하는 지금과 같은 경우, 분석하는 데이터에서 결측치를 제외해야 합니다. 


코드북에서는 1-9998 사이의 값을 지닌다고 되어 있는데 출력 결과엣에서는 최솟값이 0이 나타났습니다. 이는 이상치가 존재하는 것이므로, 0, 9999를 값을 가지는 경우 결측 처리를 해야 합니다. 다음과 같은 명령어로 전처리를 진행하겠습니다. 



2. 성별에 따른 월급 차이 분석


두 변수의 전처리 작업이 완료되었습니다. 이제 변수 간 관계를 분석해 보겠습니다. 

성별, 월급 병균표를 만들어 비교해 보겠습니다. 



월급 평균이 남자는 312만 원, 여자는 163만 원으로 평균적으로 여성보다 남성의 월급이 약 150만 원 더 많다는 것을 알 수 있습니다. 

이 분석 결과를 쉽게 이해할 수 있도록 앞에서 만든 성별, 월급 평균균표를 이용해 막대그래프를 만들어 보겠습니다. 



출력된 그래프를 보면 남성의 월급이 여성의 월급보다 2배 이상 많다는 것을 볼 수 있습니다. 이것으로 가설 '성별에 따라 월급이 다를 것이다.'에 한 층 힘이 실린 셈입니다. 이런 현상이 나타나는 유는 다른 이이유들을 찾아보아야 할 것입니다. 


다음 시간에는 '나이와 월급의 관계'를 가설로 데이터를 분석해 보겠습니다. 


LIST
Comments