IT/Data Science

통계분석

우루사이 2023. 12. 3. 00:39

위치 통계량(중심 경향성)

  • 기대값 E(X)
    • 모집단 데이터에 대한 평균값
  •  평균(산술평균)
    • 극단적인 값에 민감함
    • 자료수가 적고 근단 값이 여러 개인 경우 대푯값 기능 상실
    • 평균 = 무게중심
  • 기하평균
    • n개의 양수 값을 모두 곱한 것의 n제곱근
    • 성장율의 평균
  • 조화평균
    • 주어진 수들의 역수의 산술평균에 다시 역수를 취한 것
    • 평균적인 변화율
  • 가중평균
    • 평균낼 각각의 값에 가중치를 곱한 합을 가중치의 합으로 나눔
    • 일률적 평가가 어려운 경우 또는 차지하는 비중이 다른 경우
  • 중앙값(median)
    • 데이터를 순서대로 나열할 때 가운데 있는 값
    • 중앙값을 기준으로 분포의 양쪽 면적은 동일
    • 데이터가 짝수개일 경우: n/2번째와 (n+2)/2번째 값의 평균
  • 최빈값(mode)
    • 빈도가 가장 많은 관측치
    • 평균/중위수와 달리 존재하지 않을 수도, 유일하지 않을 수도 있음
    • 질적 변수에도 활용 가능
  • 중앙값과 최빈값의 특징
    • 극단적 이상치가 있는 경우, 극단적 관찰치에 덜 민감한 중앙값이 대표값으로 사용될 수 있음
    • 자료의 분포가 비대칭인 경우, 평균의 보조 자료로 이용 가능
      • 우측 긴 꼬리 갖는 분포: mode < median < mean
      • 좌측 긴 꼬리 갖는 분포: mean < median < mode
    • 개방 구간을 갖는 도수분포표의 경우, 중앙값 혹은 최빈값을 대표값으로 사용
    • 명목 자료와 서열 자료의 경우, 평균과 중앙값을 계산할 수 없으므로 최빈값을 대표 자료로 사용

변이 통계량(퍼짐 정도)

  • 산포도 or 분산도(measure of dispertion)으로 퍼짐 정도 측정
    • 범위: 최대값 - 최소값
    • 중간 범위: 최대값과 최소값의 평균
    • 평균절대편차(mean absolute deviation)
      • 모든 데이터로부터 평균값을 뺀 값의 절대값의 평균
      • 절대편차 합의 평균
    • 분산
      • 모분산 : 모든 편차의 제곱의 평균 
      • 표본분산: 모분산과 달리 n-1로 평균
        • n-1을 사용해야 모수에 대한 불편추정량이 됨
        • 어떤 추정량의 기대값이 추정하고자 하는 모수와 같으면 불편추정량
      • 특징
        • 주어진 자료가 평균 주위로 얼마나 집중되어 있는가 측정
        • 분산 값이 작으면 자료의 변동이 심하지 않고 대체로 평균 가까이에 분포하고 있음을 의미
        • 분산은 각 자료에 대한 편차 제곱으로 구하므로 원자료의 단위와 달라짐
        • 표본분산은 모분산을 구하고자 할 때 추정치로서 사용
        • 표본분산 공식에서 n대신 n-1을 사용
          • 편차제곱합의 평균을 구하면 모분산을 과소 추정
        • (n-1)을 사용해 모분산의 불편추정치(unbiased estimator)가 되도록 함
          • 자유도(df, degree of freedom)
            • 전체 데이터 중 실질적으로 독립적인 데이터들의 개수
            • 자유도 = 자료의 개수 -1
            • 자유도를 고려하지 않은 표준편차는 실제 값을 과소 평가할 가능성이 높음
            • 극단적으로 자료의 개수가 하나인 경우
              • 평균은 x이고, 표준편차는 자유도를 고려하지 않을 경우 0
              • 자유도를 고려하면 계산 불가능 
                • 자료 하나로부터 퍼진 정도를 알 수 없으므로 퍼진 정도는 알 수 없다는 것이 적절한 답
    • 표준편차
      • 분산과 달리, 원래 자료의 단위로 환원되어, 다른 통계량과 쉽게 비교 가능
    • 변동계수(변이 계수)
      • 표준편차 / 평균
      • coefficient of varication(CV)
      • relative standard deviation(상대 표준 편차)
      • 서로 다른 데이터간의 편차를 비교하는 방법
        • 같은 항목을 다른 데이터 그룹간 비교
        • 다른 항목을 비교
        • 스케일이 서로 다른 분포 특성을 상쇄한 비교 가능
  • 변이 통계량 틍징
    • 자료가 흩어질수록 범위, 중간범위, 분산, 표준편차는 커짐
    • 자료가 평균 주위로 집중하면 범위, 중간범위, 분산, 표준편차는 작아짐
    • 자료가 모두 동일하면 범위, 중간범위, 분산, 표준편차는 0
    • 범위, 중간범위, 분산, 표준편차는 양수(+)
    • 불규칙함, 변동성, 데이터의 특수성을 알고 싶을때 -> 분산과 표준편차 활용

모양 통계량(분포의 모양)

  • 백분위수: 100등분
  • 사분위수: 25번째(Q1), 50번째(Q2), 75번째(Q3), 3사분위와 1사분위의 차이(IQR)
  • 상자-수염 그림(boxplot)
    • 자료 분포의 특성을 그래프로 요약
    • 최소값, Q1, 중앙값(Q2), Q3, 최대값 으로 구성
    • 자료 분포의 대칭/비대칭 평가, 분포 형태 비교
    • plot에 표기된 각 구간 내 포함된 자료의 개수는 모두 동일
  • 왜도(skewness)
    • 자료의 대칭성
    • 오른쪽 꼬리(왜도>0), 좌우대칭(왜도 = 0), 왼쪽 꼬리(왜도<0)
  • 첨도(kurtosis)
    • 정규분포 대비 봉오리의 높이 확인
    • 뾰족(첨도>0), 정규분포 높이(첨도=0), 납작(첨도<0)