R

R 기술통계 코드

 

  • 아래 코드는 R에서 기본적인 통계에 사용되는 코드다. 엑셀 함수로도 가능하지만 R에서는 무엇보다 자동화가 가능하다.
 

통계용어 설명

  • 아웃라이어(outlier) : 평균을 구할 때 값의 급격한 변화를 주는 값. 예를 들어 1, 3, 5, 100의 평균의 값을 구하고자 했을 때 100은 네 개 값의 평균을 왜곡하는게 급격한 영향을 끼친다. 이때 100을 통계용어로 ‘아웃라이어’라고 한다. 때문에 가장 큰 값과 가장 낮은 값을 빼고 나머지를 평균으로 구하는데 이를 ‘절사평균’이라고 한다. 아웃라이어를 찾기 위해 박스 플롯(Box Plot)이라는 그래프를 그린다.

 

  • 중앙값(median) : 중앙값은 아웃라이어에 의해 데이터의 대푯값이 많이 변하는 점을 보완하기 위한 값이다. 중앙값은 아웃라이어에 의해 값이 크게 변하지 않는다.
  • 범위(range) : 수치형 연속변수가 주어지면 그 값의 최솟값과 최댓값이 있다. 그 사이를 범위라고 한다.
  • 사분위범위(Interquartile Range) : 사분위범위는 데이터를 25%, 50%, 75%, 100% 구간으로 나눈 사분위수에서 25%와 75% 사이의 값들을 의미한다. 이때 주의할 점은 사분위수에서 50%는 평균이 아니라 중앙값이라는 점이다. 25% 또한 중앙값을 구하는 방식으로 얻고 75%도 마찬가지다. 사분위범위는 줄여 IQR이라고 부르기도 한다. IQR이 중요한 이유는 중앙값 근처이면서 데이터를 나타내는 값들이 많이 포진돼 있기 때문이다. 이렇게 IQR과 중앙값 그리고 아웃라이어를 한꺼번에 표시하는 도형이 box plot.

Warning: printf(): Too few arguments in /home/lightover/html/wp-content/themes/fortunato-pro/inc/template-tags.php on line 46
되고 싶은 것보다 하고 싶은게 많아요. 어느 순간 둘 중 하나를 선택해야 한다면 하고 싶을 걸 택할 겁니다. 삶은 짧고, 불확실하니까.