R 언어는 빅데이터 처리를 위한 언어이다.
R은 CRAN에서 관리한다. R을 개발하기 위한 IDE는 RStudio이다. 이클립스에도 개발할 수 있는 환경이 있지만 RStudio가 가장 나았다.
R 에서는 여러가지를 할 수 있다. 빅데이터를 처리하기 위한 알고리즘이 다양하기 때문이다. 또한 R은 프로그래머들보다는 통계학자들을 위한 언어이기 때문에 쉽게 만들어져 있지만 통계적인 개념들을 이해하고 있어야 하기 때문에 어렵다고 할 수 있다.
나는 RStudio를 설치하고 The R Book이라는 책의 번역판을 읽었다.
나는 아파트 집값을 분석하는 R프로그램을 만들기로 하였다
http://rt.molit.go.kr/
국토교통부 실거래가 데이터를 크롤링(crawling)과 긁어내기(scraping)방식을 이용하여 2006년부터의
아파트 실거래가 데이터를 받아온 뒤 그것을 분석하여 그래프를 그려 보았다.
아파트 가격 분석 툴의 플롯 방식을 ggplot2라이브러리로 변경하였다.
결과는 다음과 같다.
날짜별 거래가 변동. 하나의 점이 하나의 거래를 의미한다. 여기서 색깔은 층수이다. |
여기서 색깔은 면적이다. 평수가 클수록 (당연히) 더 비싸다는 걸 알 수 있다. |
평수별 거래가는 상자 수염 그림으로 표현하였다. |
상자 수염 그림에서 굵은 가로선은 중앙값, 가는 가로선은 사분위수이다.
소스는 저번과 같이 Github에 올렸다.
다음에는 소셜 네트워크 분석을 해볼 예정이다.