naverNewsParser를 이용한 네이버 뉴스 크롤링

  텍스트를 분석할 때 가장 먼저 할 일은 크롤링(Crawing)이다. 크롤링은 특정 사이트 내 웹페이지를 가져와 수집하는 행위를 말한다. 이런 작업을 도와주는 어플리케이션을 일컬어 크롤러(Crawler)라고 부른다. 여기에서는 깃허브에 공개된 R 라이브러리를 활용해 네이버 뉴스를 크롤링하려고 한다. 사용할 라이브러리는 ‘naverNewsParser’다. 네이버 뉴스만을 목표한 라이브러리로 범위는 협소하지만, 사용법이 매우 간단해서 활용도가 높다. naverNewsParser는 R에 등록된 정식 라이브러리가 아니다.…

R 기술통계 코드

  아래 코드는 R에서 기본적인 통계에 사용되는 코드다. 엑셀 함수로도 가능하지만 R에서는 무엇보다 자동화가 가능하다.

  통계용어 설명 아웃라이어(outlier) : 평균을 구할 때 값의 급격한 변화를 주는 값. 예를 들어 1, 3, 5, 100의 평균의 값을 구하고자 했을 때 100은 네 개 값의 평균을 왜곡하는게 급격한 영향을 끼친다. 이때 100을 통계용어로 ‘아웃라이어’라고 한다. 때문에…