R

R 기술통계 코드

 

  • 아래 코드는 R에서 기본적인 통계에 사용되는 코드다. 엑셀 함수로도 가능하지만 R에서는 무엇보다 자동화가 가능하다.
 

통계용어 설명

  • 아웃라이어(outlier) : 평균을 구할 때 값의 급격한 변화를 주는 값. 예를 들어 1, 3, 5, 100의 평균의 값을 구하고자 했을 때 100은 네 개 값의 평균을 왜곡하는게 급격한 영향을 끼친다. 이때 100을 통계용어로 ‘아웃라이어’라고 한다. 때문에 가장 큰 값과 가장 낮은 값을 빼고 나머지를 평균으로 구하는데 이를 ‘절사평균’이라고 한다. 아웃라이어를 찾기 위해 박스 플롯(Box Plot)이라는 그래프를 그린다.

 

  • 중앙값(median) : 중앙값은 아웃라이어에 의해 데이터의 대푯값이 많이 변하는 점을 보완하기 위한 값이다. 중앙값은 아웃라이어에 의해 값이 크게 변하지 않는다.
  • 범위(range) : 수치형 연속변수가 주어지면 그 값의 최솟값과 최댓값이 있다. 그 사이를 범위라고 한다.
  • 사분위범위(Interquartile Range) : 사분위범위는 데이터를 25%, 50%, 75%, 100% 구간으로 나눈 사분위수에서 25%와 75% 사이의 값들을 의미한다. 이때 주의할 점은 사분위수에서 50%는 평균이 아니라 중앙값이라는 점이다. 25% 또한 중앙값을 구하는 방식으로 얻고 75%도 마찬가지다. 사분위범위는 줄여 IQR이라고 부르기도 한다. IQR이 중요한 이유는 중앙값 근처이면서 데이터를 나타내는 값들이 많이 포진돼 있기 때문이다. 이렇게 IQR과 중앙값 그리고 아웃라이어를 한꺼번에 표시하는 도형이 box plot.
되고 싶은 것보다 하고 싶은게 많아요. 어느 순간 둘 중 하나를 선택해야 한다면 하고 싶을 걸 택할 겁니다. 삶은 짧고, 불확실하니까.