관리 메뉴

느루독서심리연구센터(010-2788-3025)

[빅데이터 통계 R 프로그램(4)] 데이터 분석 시작 (01) 프로젝트 만들기 & 패키지 설치/로드 본문

논문 잘 쓰는 법/통계 R 공부하자

[빅데이터 통계 R 프로그램(4)] 데이터 분석 시작 (01) 프로젝트 만들기 & 패키지 설치/로드

느루독서심리연구센터(010-2788-3025) 2018. 1. 29. 14:08
728x90
SMALL

이 글은 한국상담학신문(265-21-00636)에서 발행하는 글입니다.


key word: R. R Studio, 프로젝트 만들기, 패키지 설치, 패키지 로드


 "설치만 끝내고 어떤 기능이 있는지 잠깐 밖에 살펴보지 못했는데 벌써 데이터를 분석해?"


위처럼 생각하시는 분이 있을 수도 있겠죠. 하지만 R은 복잡하거나 어려운 것이 아닙니다. 오히려 저는 실제로 데이터를 다뤄보면서 익혀나가는 것이 더 빠르다고 생각합니다.


그런 의미에서 여러분은 지금부터 논문을 쓸 것입니다. 여러분의 수준에는 '이런 걸로 논문을 써?'라고 생각하실 수도 있지만, 어디까지나 실습을 위한 가상의 주제임을 알아주세요. 또한 "04. 데이터 분석 시작!"에서는 아주 간단한 가설만으로 데이터 분석에 익숙해질 것입니다. 이어지는 05, 06과 같은 글에서 복잡한 가설을 포함한 데이터 분석, 가설의 검증, 통계학적 방법에 대해 다루겠습니다.


* 실습에서는 "한국복지패널(https://www.koweps.re.kr:442/main.do)"의 데이터를 사용할 것입니다.

*논문 작성에 관한 자세한 이야기는 이 글에서 다루지 않습니다. 이에 대해서는 다음 글을 참고해 주세요. "논문 작성 방법(http://goodthoght.tistory.com/23?category=786638)" 


여러분은 "한국인의 삶, 월급을 중심으로"라는 논문을 쓰려고 합니다. 한국 사람들의 경제상황이 성별, 나이, 직업 등에 따라 어떻게 달라지는지 알아내고 이를 복지 정책 연구에 사용하기 위해서인데요. 


이를 위해 한국보건사회연구원으로부터 전국 7000여 가구를 선정해 추적 조사한 자료를 제공 받았습니다. 자료는 경제활동, 생활실태, 복지욕구 등의 매우 많은 변수로 구성되어 있습니다. 지금부터 여러분은 이 자료를 R을 사용해 분석할 것입니다. 


01. 프로젝트 만들기


우선 여러분은 논문 자료 분석이라는 프로젝트를 시작했기 때문에 이를 따로 관리할 수 있어야 합니다. 혹여 다른 자료들과 섞이면 일이 꼬여가기 때문입니다. 


이를 위해 R에서 새로운 프로젝트를 만들어 봅시다. 

*R과 같은 프로그램들에서 프로젝트는 여러분이 사용할 사진, 설문 통계와 같은 데이터, 스크립트(명령어 모은 파일) 등을 하나로 묶은 것을 말합니다. 


우선 R을 실행시킨 후 오른쪽 위편에 있는 "R Project: (None)" 버튼을 클릭하고 [New Project]를 클릭해 주세요. 



"Create Project"창이 나타나면 맨 위 메뉴인 "New Directory"를 선택해 줍니다. 



"Project Type"창에서는 "New Project"를 선택해 주세요.



"Create New Project"창에서는 프로젝트의 이름과 프로젝트 저장 위치를 설정할 수 있습니다. 여러분이 원하시는 이름과 위치를 설정해 주세요. 저는 "korean"으로 하겠습니다. 설정이 다 되셨으면 오른쪽 아래 "Create Project"로 진행하시면 됩니다. 



다음 두 버튼 중 하나를 누르시면 소스 창이 뜨고 다음과 같은 환경으로 프로젝트가 하나 만들어진 것입니다. 



02. 패키지 설치 및 불러오기



패키지라는 말부터가 생소하실 것입니다. package의 영어 뜻인 "묶음"이나 마트나 홈쇼핑에서 말하는 패키지 상품으로 이해를 해 주시면 편한데요. R에서 말하는 패키지는 여러분이 작업을 수월하게 할 수 있도록 하는 여러 기능들을 모아둔 묶음입니다. '다이어트 패키지'라는 이름으로 닭 가슴살, 단백질보충제 등을 묶어서 파는 것처럼 말이죠. 

R에는 여러 가지 그래프를 그리는 방법을 모아 둔 묶음(패키지)도 있고, 통계학에서 사용하는 함수를 여러분이 편하게 쓸 수 있도록 만들어 둔 묶은(패키지)도 있습니다. 또한 이번 단계에서 사용할 다룰 통계분석 소프트웨어의 파일을 불러오는 패키지도 있습니다. 


여러분은 논문 데이터 분석을 위한 첫 단계인 프로젝트 만들기를 무사히 끝냈습니다. 그런데 여기서 한 가지 문제가 생겼습니다. 바로 여러분이 받은 '한국보건사회연구원'의 자료가 R에서 바로 사용할 수 있는 파일이 아닌, 다른 통계분석 프로그램 SPSS의 파일이라는 것이죠. 어떻게 할 방법이 없을까를 고민하던  도중 여러분은 R이 아닌 통계파일을 불러올 수 있는 방법을 찾아냈습니다. 

바로 "foreign" 패키지를 이용하는 것이었죠. 

R에서 패키지를 설치하고 불러오는 방법은 다음과 같은 명령어를 쓰고 실행시키기만 하면 됩니다. 

먼저 소스 창에 다음과 같이 작성합니다. (각 줄의 샵기호(#) 뒤는 쓰지 않아도 됩니다.)



이제 전체 코드를 실행시킨 후 명령어들이 각각 어떤 의미인지 알아봅시다. 

(*패키지 설치는 인터넷이 연결되어 있어야 합니다.)


"블록 + Ctrl + Enter"는 안 까먹으셨죠? 실행을 하면 다음과 같은 화면이 보이면서 프로그램이 자동으로 패키지 설치를 진행합니다. 붉은 글씨가 더 이상 나오지 않을 때까지 기다려 주세요.


각 명령어의 의미를 알아보기 위해 패키지를 설치하고 사용하는 방법에 대해 자세히 알아봅시다. 


R에서 패키지를 사용하기 위해서는 먼저 설치를 한 후 로드를 해야 합니다. 그 후 패키지에 들어있는 기능들을 사용할 수 있는 것이죠. 



그럼 패키지 로드라는 말이 궁금하실 것인데요. 로드(load)는 패키지를 사용할 수 있도록 여러분의 프로젝트에 불러오는 작업을 의미합니다. 

패키지 설치는 한 번만 진행하면 되지만, 패키지 로드를 하는 작업은 R Studio를 시작할 때마다 반복해야 합니다. 


그렇다면 패키지를 설치하는 명령어에 대해 알아봅시다!!



'install'은 설치하다는 뜻이고, 'packages'는 패키지라는 것 잘 아시겠죠? 쓰여진 그대로 괄호 안에 있는 패키지를 설치해라는 명령어입니다. 여기서 주의해야 할 점은 install과 packages가 마침표(.)로 이어져 있다는 것과 패키지 이름은 항상 따옴표("", '')묶어줘야 한다는 것입니다. 


즉 위에서 쓴 명령어의 1-4 번째 줄은 순서대로 foreign, dplyr, ggplot2, readxl이라는 패키지를 설치하는 명령어라 할 수 있겠죠? 



이번에는 패키지를 로드하는, 불러오는 명령어에 대해 알아봅시다. 



'library', 도서관이라는 영어 단어죠. '패키지는 묶음'이라는 말을 위에서 했는데요. 자료를 처리할 수 있는 방법을 쓴 책들의 묶음이라고 생각한다면 왜 굳이 'library'라는 것을 쓰는지 이해가 되시겠죠? 주의할 점은 패키지를 로드할 때는 따옴표("", '')로 패키지 이름을 묶어주지 않는다는 거입니다. 


따라서 5-9 번째 줄에 쓴 명령어는 순서대로 foreign, dplyr, ggplot2, readxl이라는 패키지를 로드, 불러오라는 명령어인 것이 이해가 되셨을 것입니다.


오늘 여러분은 데이터 분석을 시작하고, 이를 관리하기 위해 '프로젝트 생성'을 하는 방법을 배웠습니다. 또한 자료를 바로 사용할 수 없다는 문제를 해결하기 위해 '패키지 설치/로드'를 하는 방법을 공부했습니다. 다음 시간에는 직접 데이터를 가져오고 수정해보도록 합시다. 수고하셨습니다.


-한국상담학신문-

건강한 가족회복, 개인회복을 위해 최선을 다하겠습니다!

제휴 및 강의 문의: 010-2788-3025


LIST
Comments