2015년 5월 10일 일요일

R로 아파트값 분석하기

나의 주제는 R 언어이다.
R 언어는 빅데이터 처리를 위한 언어이다.
R은 CRAN에서 관리한다. R을 개발하기 위한 IDE는 RStudio이다. 이클립스에도 개발할 수 있는 환경이 있지만 RStudio가 가장 나았다.

R 에서는 여러가지를 할 수 있다. 빅데이터를 처리하기 위한 알고리즘이 다양하기 때문이다. 또한 R은 프로그래머들보다는 통계학자들을 위한 언어이기 때문에 쉽게 만들어져 있지만 통계적인 개념들을 이해하고 있어야 하기 때문에 어렵다고 할 수 있다.

나는 RStudio를 설치하고 The R Book이라는 책의 번역판을 읽었다.

나는 아파트 집값을 분석하는 R프로그램을 만들기로 하였다
 http://rt.molit.go.kr/
국토교통부 실거래가 데이터를 크롤링(crawling)과 긁어내기(scraping)방식을 이용하여 2006년부터의
아파트 실거래가 데이터를 받아온 뒤 그것을 분석하여 그래프를 그려 보았다.

아파트 가격 분석 툴의 플롯 방식을 ggplot2라이브러리로 변경하였다.
결과는 다음과 같다.

날짜별 거래가 변동. 하나의 점이 하나의 거래를 의미한다. 여기서 색깔은 층수이다.

여기서 색깔은 면적이다. 평수가 클수록 (당연히) 더 비싸다는 걸 알 수 있다.

평수별 거래가는 상자 수염 그림으로 표현하였다.

상자 수염 그림에서 굵은 가로선은 중앙값, 가는 가로선은 사분위수이다.

소스는 저번과 같이 Github에 올렸다.

다음에는 소셜 네트워크 분석을 해볼 예정이다.