- 아래 코드는 R에서 기본적인 통계에 사용되는 코드다. 엑셀 함수로도 가능하지만 R에서는 무엇보다 자동화가 가능하다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
max() # 최댓값 min() # 최솟값 range() # 범위값 mean() # 평균 median() # 중간값 quantile() # 사분위 boxplot() # boxplot을 보여주는 함수 var() # 분산 sd() # 표준편차 sd()/mean() #변동계수 summary() # 종합 scala() #표준화 col(x,y) # 상관계수 cov(x,y) # 공분산 |
통계용어 설명
- 아웃라이어(outlier) : 평균을 구할 때 값의 급격한 변화를 주는 값. 예를 들어 1, 3, 5, 100의 평균의 값을 구하고자 했을 때 100은 네 개 값의 평균을 왜곡하는게 급격한 영향을 끼친다. 이때 100을 통계용어로 ‘아웃라이어’라고 한다. 때문에 가장 큰 값과 가장 낮은 값을 빼고 나머지를 평균으로 구하는데 이를 ‘절사평균’이라고 한다. 아웃라이어를 찾기 위해 박스 플롯(Box Plot)이라는 그래프를 그린다.
- 중앙값(median) : 중앙값은 아웃라이어에 의해 데이터의 대푯값이 많이 변하는 점을 보완하기 위한 값이다. 중앙값은 아웃라이어에 의해 값이 크게 변하지 않는다.
- 범위(range) : 수치형 연속변수가 주어지면 그 값의 최솟값과 최댓값이 있다. 그 사이를 범위라고 한다.
- 사분위범위(Interquartile Range) : 사분위범위는 데이터를 25%, 50%, 75%, 100% 구간으로 나눈 사분위수에서 25%와 75% 사이의 값들을 의미한다. 이때 주의할 점은 사분위수에서 50%는 평균이 아니라 중앙값이라는 점이다. 25% 또한 중앙값을 구하는 방식으로 얻고 75%도 마찬가지다. 사분위범위는 줄여 IQR이라고 부르기도 한다. IQR이 중요한 이유는 중앙값 근처이면서 데이터를 나타내는 값들이 많이 포진돼 있기 때문이다. 이렇게 IQR과 중앙값 그리고 아웃라이어를 한꺼번에 표시하는 도형이 box plot.