IT/Data Science
통계분석
우루사이
2023. 12. 3. 00:39
위치 통계량(중심 경향성)
- 기대값 E(X)
- 모집단 데이터에 대한 평균값
- 평균(산술평균)
- 극단적인 값에 민감함
- 자료수가 적고 근단 값이 여러 개인 경우 대푯값 기능 상실
- 평균 = 무게중심
- 기하평균
- n개의 양수 값을 모두 곱한 것의 n제곱근
- 성장율의 평균
- 조화평균
- 주어진 수들의 역수의 산술평균에 다시 역수를 취한 것
- 평균적인 변화율
- 가중평균
- 평균낼 각각의 값에 가중치를 곱한 합을 가중치의 합으로 나눔
- 일률적 평가가 어려운 경우 또는 차지하는 비중이 다른 경우
- 중앙값(median)
- 데이터를 순서대로 나열할 때 가운데 있는 값
- 중앙값을 기준으로 분포의 양쪽 면적은 동일
- 데이터가 짝수개일 경우: n/2번째와 (n+2)/2번째 값의 평균
- 최빈값(mode)
- 빈도가 가장 많은 관측치
- 평균/중위수와 달리 존재하지 않을 수도, 유일하지 않을 수도 있음
- 질적 변수에도 활용 가능
- 중앙값과 최빈값의 특징
- 극단적 이상치가 있는 경우, 극단적 관찰치에 덜 민감한 중앙값이 대표값으로 사용될 수 있음
- 자료의 분포가 비대칭인 경우, 평균의 보조 자료로 이용 가능
- 우측 긴 꼬리 갖는 분포: mode < median < mean
- 좌측 긴 꼬리 갖는 분포: mean < median < mode
- 개방 구간을 갖는 도수분포표의 경우, 중앙값 혹은 최빈값을 대표값으로 사용
- 명목 자료와 서열 자료의 경우, 평균과 중앙값을 계산할 수 없으므로 최빈값을 대표 자료로 사용
변이 통계량(퍼짐 정도)
- 산포도 or 분산도(measure of dispertion)으로 퍼짐 정도 측정
- 범위: 최대값 - 최소값
- 중간 범위: 최대값과 최소값의 평균
- 평균절대편차(mean absolute deviation)
- 모든 데이터로부터 평균값을 뺀 값의 절대값의 평균
- 절대편차 합의 평균
- 분산
- 모분산 : 모든 편차의 제곱의 평균
- 표본분산: 모분산과 달리 n-1로 평균
- n-1을 사용해야 모수에 대한 불편추정량이 됨
- 어떤 추정량의 기대값이 추정하고자 하는 모수와 같으면 불편추정량
- 특징
- 주어진 자료가 평균 주위로 얼마나 집중되어 있는가 측정
- 분산 값이 작으면 자료의 변동이 심하지 않고 대체로 평균 가까이에 분포하고 있음을 의미
- 분산은 각 자료에 대한 편차 제곱으로 구하므로 원자료의 단위와 달라짐
- 표본분산은 모분산을 구하고자 할 때 추정치로서 사용
- 표본분산 공식에서 n대신 n-1을 사용
- 편차제곱합의 평균을 구하면 모분산을 과소 추정
- (n-1)을 사용해 모분산의 불편추정치(unbiased estimator)가 되도록 함
- 자유도(df, degree of freedom)
- 전체 데이터 중 실질적으로 독립적인 데이터들의 개수
- 자유도 = 자료의 개수 -1
- 자유도를 고려하지 않은 표준편차는 실제 값을 과소 평가할 가능성이 높음
- 극단적으로 자료의 개수가 하나인 경우
- 평균은 x이고, 표준편차는 자유도를 고려하지 않을 경우 0
- 자유도를 고려하면 계산 불가능
- 자료 하나로부터 퍼진 정도를 알 수 없으므로 퍼진 정도는 알 수 없다는 것이 적절한 답
- 자유도(df, degree of freedom)
- 표준편차
- 분산과 달리, 원래 자료의 단위로 환원되어, 다른 통계량과 쉽게 비교 가능
- 변동계수(변이 계수)
- 표준편차 / 평균
- coefficient of varication(CV)
- relative standard deviation(상대 표준 편차)
- 서로 다른 데이터간의 편차를 비교하는 방법
- 같은 항목을 다른 데이터 그룹간 비교
- 다른 항목을 비교
- 스케일이 서로 다른 분포 특성을 상쇄한 비교 가능
- 변이 통계량 틍징
- 자료가 흩어질수록 범위, 중간범위, 분산, 표준편차는 커짐
- 자료가 평균 주위로 집중하면 범위, 중간범위, 분산, 표준편차는 작아짐
- 자료가 모두 동일하면 범위, 중간범위, 분산, 표준편차는 0
- 범위, 중간범위, 분산, 표준편차는 양수(+)
- 불규칙함, 변동성, 데이터의 특수성을 알고 싶을때 -> 분산과 표준편차 활용
모양 통계량(분포의 모양)
- 백분위수: 100등분
- 사분위수: 25번째(Q1), 50번째(Q2), 75번째(Q3), 3사분위와 1사분위의 차이(IQR)
- 상자-수염 그림(boxplot)
- 자료 분포의 특성을 그래프로 요약
- 최소값, Q1, 중앙값(Q2), Q3, 최대값 으로 구성
- 자료 분포의 대칭/비대칭 평가, 분포 형태 비교
- plot에 표기된 각 구간 내 포함된 자료의 개수는 모두 동일
- 왜도(skewness)
- 자료의 대칭성
- 오른쪽 꼬리(왜도>0), 좌우대칭(왜도 = 0), 왼쪽 꼬리(왜도<0)
- 첨도(kurtosis)
- 정규분포 대비 봉오리의 높이 확인
- 뾰족(첨도>0), 정규분포 높이(첨도=0), 납작(첨도<0)