관리 메뉴

느루독서심리연구센터(010-2788-3025)

[빅데이터 통계 R 프로그램(1)] R정의, 통계분석, 데이터 분석, 연구자의 R 본문

논문 잘 쓰는 법/통계 R 공부하자

[빅데이터 통계 R 프로그램(1)] R정의, 통계분석, 데이터 분석, 연구자의 R

느루독서심리연구센터(010-2788-3025) 2018. 1. 24. 22:08
728x90
SMALL

 이 글은 한국상담학신문(262-21-00646)에서 발행하는 글입니다.


논문 통계를 위한 R - 01. Hello, R!


Key word: R, R 이란? , 통계분석, 데이터 분석, 연구자의 R


R 정의, 통계분석, 데이터 분석, 연구자의 R, 빅데이터 통계,

R은 데이터를 전문적으로 다루는 사람들이 가장 많이 사용하는 데이터 분석 전문 도구입니다. 

R이 어떤 일을 할 수 있는지, 왜 가장 많이 사용되는지에 대해 알아봅시다.


01. R 이란? 


R은 데이터 분석 전문 도구입니다. 여러분이 설문이나 면접을 통해 모든 자료들을 정리하고 분석하는 데 사용하는 소프트웨어인 것입니다. Google과 같은 기업, 논문의 작성 등을 위해 통계를 사용하는 학계, 정확하고 신뢰성 있는 보도를 위해 데이터를 수집하고 분석하는 언론계 등 다양한 분야의 전문가들이 R을 사용합니다. 또한 이제 막 데이터 분석을 시작하는 입문자, 새내기들도 자신만의 도구로 R을 선택하는 경우가 많습니다. 


R, SPSS, Python, Matlab 등 수많은 데이터 분석 도구들 중 R은 독보적인 인기를 끌고 있습니다. 심지어 프로그램 개발자들에게는 R 사용가능 여부가 연봉의 차이를 놓기도 합니다. 

R 정의, 통계분석, 데이터 분석, 연구자의 R, 빅데이터 통계

R 정의, 통계분석, 데이터 분석, 연구자의 R, 빅데이터 통계

02. R을 사용하는 곳


데이터 분석 전문가들에게! 프로그램 개발자들에게! R의 사용을 요구하는 이유는 R의 범용성 때문입니다. 어떤 형태의 데이터든 자유롭게 분석가능하고, 어떤 분야의 사용이든 강력하게 작용될 수 있습니다. 

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터분석, 연구자의 R

1) 통계 분석


여러분이 잘 알고 계실 예인 성적의 평균 구하기와 같은 자료의 특성을 살펴보는 기초 통계분석부터 통계 가설검정과 같은 고급 통계분석까지, 매우 다양한 통계분석을 사용할 수 있습니다. 또한 이를 그림과 같은 그래프 등으로 시각화하는 작업을 간편하게 할 수 있기 때문에 논문에 삽입하거나, 기사에 쓸 그래프를 따로 만드는 시간을 줄여줍니다.


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

2) 소셜 네트워크


요즘에는 SNS(소셜 네트워크 서비스)의 사용이 매우 활발하기 때문에, 화장품과 같은 물건을 팔기 위해서도, 사람의 심리를 심층적으로 연구해보기 위해서도 SNS의 분석이 필요해지는 경우가 많습니다. 


R은 페이스북, 트위터, 인스타그램과 같은 SNS에서 각각의 사람들이 어떤 관계를 맺고 있는지, 어떤 키워드가 중점적으로 다뤄지는지 등을 분석하는 소셜네트워크 분석 기술을 제공합니다. 

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

3) 주식 분석


데이터 분석하면 통계와 함께 가장 먼저 떠오르는 키워드 중 하나죠. R은 온라인에서 특정 주식과 관련 데이터를 수집하고 분석하는 것이 가능합니다. 주식의 지표를 계산, 그래프로 표현하는 것이 가능하고, 여러 주식간의 상관관계를 분석해 실제 투자에 사용되는 투자 시스템을 구현할 수도 있습니다.

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

4) 텍스트 마이닝(Text Mining)


텍스트 마이닝은 문자로 이루어진 테이터를 분석하는 기술입니다. 마이닝! 영어로 Mining은 '채굴, 채광'의 뜻입니다. 'mine'의 '나의 것'이라는 뜻 말고! 동사의 뜻으로 '광물질을 캐다, 채굴하다'의 뜻입니다. 글자(text)를 광물질 캐듯이 채굴하는 것을 의미합니다. 예를 들어, 4차 산업혁명을 다루는 기사에서 중점적인 단어 'IoT', 'AI' 등을 찾아내는 기술입니다. 


이 기술은 여러분이 사회 현상을 분석하거나, 사람을 연구할 때, 극적인 효과를 볼 수 있습니다. 일상생활에서 오고가는 문장들을 분석해 관심을 가지고 있는 주제를 찾을 수도, 문장에서 사용되는 단어를 분석해 성격이나 심리상태를 분석할 수 있기 때문입니다. 


R은 이와 이와 같은 텍스트 마이닝 기술을 사용할 수 있습니다.  

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 데이터 분석, 연구자의 R

5) 이미지 분석


R에서는 사진과 같은 이미지 데이터에서 음영, 색, 선의 연결과 같은 특징과 속성 정보를 추출하고 이를 데이터로 변환할 수 있습니다. 이를 통해서 눈의 위치가 어디 있는지, 입의 위치가 어디 있는지 등과 같은 이미지 식별 등의 영상 처리 알고리즘을 개발하는 데 사용할 수 있습니다.

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R 

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

6) 사운드 분석


R에서는 소리 데이터에서 음량, 진폭, 성문 등의 속성을 추출해 이를 데이터로 변환하고, 시각화하여 분석할 수 있습니다. 이를 통해서 음성 인식과 같은 사운드 처리 알고리즘을 개발하는 데 사용할 수 있습니다.  


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

7) 머신러닝 모델링


머신러닝은 매우 많은 양의 데이터를 이용해서 특정 상황에 대한 결과 값을 예측하는 기술, 기법입니다. 여러분의 친구가 평소에 잘 가는 장소를 기억하고, 다음에 친구를 찾을 때 그 장소부터 가는 것과 같은 일을 컴퓨터와 같은 기계가 할 수 있게 하는 것이죠. 


R은 데이터 분석 도구이기에 많은 양의 데이터를 다루는 일에 최적화 되어 있고, 이는 머신러닝을 연구할 수 있는 가장 좋은 기반이 되어 있다는 것입니다. 또한 R에서는 랜덤 포레스트 딥러닝 등과 같은 최신 머신러닝 알고리즘을 쉽게 활용할 수 있게 해 줍니다.  

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

03. R이 많이 사용되는 이유


R이 어떤 것인지, 어디에 사용할 수 있는지는 추운히 알았다고 생각합니다. 그렇다면 R이 왜 많이 사용되고 있는지에 대해 한 번 알아보도록 하겠습니다. 


1. 많이 사용되고 있기 때문에


이 말이 궤변으로 보이시겠지만, '가장 많이 사용된다.'는 점은 연구를 하면서, 공부를 하면서 가장 큰 이점들 중 하나입니다. 문제가 생겼을 때, 질문할 수 있는 사람이 많을 뿐만 아니라, 오랜 경험으로 우러나는 조언을 얻을 수 있다는 것이기 때문입니다. 


여러분이 데이터 분석을 하다 어떤 문제에 봉착하는 일이 있을 것입니다. 이 때 온라인 커뮤니티에 질문을 올리면, 여러분의 문제를 이전에 겪었었던 사람, 또는 도구를 만든 사람이 직접 해결 방법을 친절하게 알려줍니다. 

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

2. 무료, 오픈 소스이기 때문에


데이터 분석 도구들은 많은 수학자들과 프로그래머들이 오랜 시간 연구하고 노력해서 만든 것입니다. 때문에 가격이 높아질 수밖에 없는 것이 사실이죠. 하지만 아무리 좋은 도구라도 직접 사용할 수 없다면, 그림에 떡일 뿐입니다. 


이런 점에서 R은 '무료'라는 아주 좋은 경쟁력을 가지고 있습니다. R을 만든 뉴질랜드 오클랜드 대학교 통계학 교수인 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)은 많은 사람들이 손쉽게 통계 분석을 할 수 있도록 무료로, 온라인에 공개했습니다. 심지어 프로그램의 주민등록번호와 같은 소스 코드를 공개한다는 파격적인 행동으로 많은 사람들이 최신의 기술을 빠르게 적용할 수 있게 했습니다. 


즉, R은 무료라는 것 자체로 매력적인 도구이고, 프로그램의 구조가 다른 전문가들에 의해 빠르게 개선되는 장점을 가지고 있기 때문에 많이 사용되는 것입니다. 


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

3. 다양한 그래프를 그릴 수 있기 때문에


데이터 분석의 주제와 결론의 전달을 위해서는 그래프의 모양을 정하는 것도 매우 중요합니다. 다음과 같이 지역별로 차이가 나는 데이터의 경우에는 지도에 자료를 표시하는 것이 결론의 전달에 가장 효율적인 방법입니다.


R은 매우 다양한 그래프를 지원하고 있고, 따라서 많은 데이터 분석 전문가들과 데이터 분석에 발을 내딪는 사람들이 R을 사용하는 것입니다.  

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R

빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R


4. 공공 작업이 가능하기 때문


표와 그래프만으로 분석하는 분석도구를 분석 결과만 남고, 어떤 가정을 세웠는가, 어떤 기법을 사용했는가 등의 분석 과정은 기록되지 않습니다. 따라서 맨 처음부터 같이 시작하지 않는 이상 여러 명이 함께 작업을 하는 것이 힘듭니다. 


반면, R과 같이 프로그래밍의 형태로 분석하는 도구의 경우, 모든 과정이 코드로 남기 때문에 이를 공유하면서 공동 작업을 할 수 있습니다. 따라서 데이터 정리 과정, 통계 분석 과정, 시각화 과정 등의 단계로 나누어 여러 사람이 함께 작업함으로서 효율을 높일 수 있습니다.   


빅데이터 통계, R 정의, 통계분석, 데이터 분석, 연구자의 R


-한국상담학신문-

건강한 가족회복, 개인회복을 위해 최선을 다하겠습니다!

제휴 및 강의 문의: loving3025@hanmail.net


LIST
Comments