관리 메뉴

느루독서심리연구센터(010-2788-3025)

[빅데이터 통계 R 프로그램(5)] 04. 데이터 분석 시작! (02) 데이터 불러오기 본문

논문 잘 쓰는 법/통계 R 공부하자

[빅데이터 통계 R 프로그램(5)] 04. 데이터 분석 시작! (02) 데이터 불러오기

느루독서심리연구센터(010-2788-3025) 2018. 1. 29. 16:38
728x90
SMALL

이 글은 한국상담학신문(265-21-00636)에서 발행하는 글입니다.


key word: R, R Studio, 데이터 불러오기, 데이터 검토하기, 변수명 변경, 데이터 분석 절차


여러분은 '한국인의 삶, 월급을 중심으로'라는 논문을 작성하고 있습니다. 이를 위해서 R 프로젝트를 말들어 패키지 설치/로드를 완료했습니다. 이제 데이터를 실제로 불러와서 어떤 데이터가 있는지 확인해 보는 일을 할 것입니다. 


01. 데이터 불러오기

다운 받은 파일을 프로젝트 파일이 있는 폴더에 넣어주세요. 그 후 R Studio를 실행시키면 파일 창에 데이터 파일이 있는 것을 볼 수 있습니다. 



이제 데이터 파일을 불러오는 작업을 할 것입니다. 다음과 같이 명령어를 작성하고 시행해 주세요. 이 때, 만약 R Studio를 종료하고 다시 켰었다면 6-9줄의 명령어도 함께 실행하세요. 저번 글에서 설명했다시피, R Studio에서 패키지는 한 번만 설치하면 되지만, 로드하는 작업은 R Studio를 실행할 때마다 해줘야하기 때문입니다. 


실행을 하고 난 후, 환경창을 보니 달라진 점이 있죠? 정상적으로 데이터를 불러왔다는 것입니다. 




이제 명령어를 살펴봅시다. 먼저 "raw_data <- read.spss(file="Koweps_hpc10_2015_beta1.sav", to.data.frame=T)"를 보자면, '읽어라(read), spss파일을'이라고 초급 영어독해처럼 읽히실 건데요. 정확하게 읽으신 겁니다!


좀 더 자세하게 이야기 해보도록 하겠습니다. "read"라는 명령어는 파일을 읽어오는 명령어입니다. 주로 데이터 파일을 읽어오게 하는 명령입니다. 여기서 read 뒤에 마침표(.)를 찍고 이어지는 것은 파일의 형태를 의미합니다. 즉 여러분이 읽어올 파일이 spss 파일이기 때문에 read 뒤쪽에 ".spss"를 쓴 것입니다. 



다음으로 "<- "에 대해 이야기 해보겠습니다. 여러분은 지금 R에서 데이터를 불러와 다루고 있습니다. 그런데 그때마다, 데이터 파일의 이름은 "Koweps_hpc10_2015_beta1.sav"를 써야 된다면 얼마나 귀찮을까요. 이러한 불편함을 해결하기 위해서 R에서는 새로운 이름을 붙여서 사용하는 방법을 만들었습니다. 바로 변수라는 개념을 사용하는 것인데요. 그림으로 나타내면 다음과 같습니다.   


위의 그림처럼 변수라는 것은 데이터를 넣을 수 있는 상자라고 생각해 주시면 됩니다. 상자의 이름만 알고 있다면 상자 속 내용물은 아주 쉽게 쓸 수 있게 하는 것입니다. 


그리고 변수(상자)를 만들고 내용을 채우는 것(대입, 바인딩)하는 방법은 다음과 같습니다. 변수(상자)의 이름을 먼저 쓰고, <-를 쓴 후 데이터를 쓰는 것입니다. 뒤의 데이터를 변수에 넣으라는 의미입니다. 


간단한 예로 다음과 같은 것을 해볼 수도 있습니다. 

1) a라는 변수를 만들고 1을 넣아라

2) b라는 변수를 만들고 "사과"라는 글자를 넣어라

실행 후 환경창을 보면 value(변수)라는 이름으로 a와 b가 추가된 것이 보이실 것입니다. 

02. 데이터 검토하기


다음은 데이터에 어떤 값들이 있는지 살펴보도록 하겠습니다. 


다음과 같은 명령어를 쓰고 한꺼번에 실행시켜 보세요. 



콘솔창에 많은 글자가 한꺼번에 뜨는 것을 보실 수 있을 것입니다.


또한 소스창에도 새로운 창이 하나 만들어지면서 아주 큰 표가 나타난 것도 볼 수 있습니다. 

지금 콘솔창과 소스 창에 나타난 모든 것들이 데이터 파일에 들어있는 정보들입니다. 이 정보들을 토대로 여러분이 세운 가설을 검증해나가는 것입니다.


하지만 이 데이터를 곧바로 사용하기에는 어려움이 있습니다. h10_pers_income3와 같은 알 수 없는 글자들이 매우 많기 때문입니다. 이와 같이 규모가 큰 자료 조사에서는 데이터의 특성을 설명해 놓은 코드북(code book)을 따로 제공하는데요. 이 코드북을 보고 자료의 이름이 어떤 의미인지, 어떤 특성을 가지는 지를 빠르게 찾기 위해서입니다. 


(한국복지패널) 1_11차 결합데이터_코드북_가구데이터(release_170331).xlsx


코드북을 활용하면 앞으로 논문을 쓰면서 어떤 데이터가 필요할지, 분석의 방향을 어떻게 잡아야 할지 등에 대해 알 수 있으니 참고하는 것이 좋습니다.


아직 h10_pers_income3와 같은 글을 쓰기에는 불편하다는 점이 남아있습니다. 이를 편하게 사용하기 위해 다음 명령어를 실행시켜 변수의 이름을 쉬운 단어로 바꿔봅시다.


03. 데이터 분석 절차


분석을 하는데 필요한 준비는 이제 끝났습니다. 이제 분석을 할 차례입니다. 오늘은 분석 절차를 알아보는 것으로 글을 마치겠습니다. 


분석 절차는 두 단계 절차로 진행됩니다. 


1단계. 변수 검토 및 전처리



맨 처음 분석에 사용할 변수들을 '전처리'해야 합니다. 변수의 특성을 파악하고 이상치를 정제한 후 파생변수를 만드는 등 분석에 활용할 변수 각각에 대해 사전에 실시합니다. 


예를 들어, '성별에 따른 월급 차이'를 분석한다면 성별, 월급 두 변수를 각각 전처리해야 합니다.


2단계. 변수 간 관계 분석


전처리가 완료되면 본격적으로 변수 간 관계를 파악하는 분석을 합니다. 데이터를 요약한 표로 만들고, 결과로 쉽게 이해할 수 있는 그래프를 만듭니다.


오늘은 데이터를 준비하고 어떻게 분석해야 되는지에 대해 알아보았습니다. 다음에는 논문에서 가설을 하나씩 잡아 데이터를 실제로 분석해보겠습니다. 수고하셨습니다~


-한국상담학신문-

건강한 가족회복, 개인회복을 위해 최선을 다하겠습니다!

제휴 및 강의 문의: 010-2788-3025


LIST
Comments