티스토리 뷰

Data Science

ANOVA (Analysis of Variance)

yj95 2024. 4. 22. 17:16
반응형

- t-test는 2개 집단에 대한 평균 차이를 검증하는 방법 -> 3개 이상의 집단부터는 불가능

- 분산분석(ANOVA)는 2개 이상의 집단에 대한 비교를 수행

 

평균 차이를 검증하기 위함인데 왜 분산?

- 분산이란 평균에서 얼마나 흩어져 있는지 정도인데 분산이 커진다면 집단 간의 평균이 차이가 있다는 것으로 볼 수도 있음

 

- 분산의 분포를 볼 때는 F분포 이용

- F ratio (F 검정통계량) = 그룹 간 분산 / 그룹 내 분산

 

가설검정

- H0 : 모든 그룹의 평균이 같다
- H1 : 어떤 그룹의 평균이 같지 않다 (적어도 하나의 그룹은 다른 평균을 가지고 있다)

 

전체 분산은 두 개의 독립적인 분산으로 구성되어 있다

- 그룹별 특성에 따른 분산 (SSB)

- Random error로서의 분산 (SSE : Sum of Square Error)

- 전체 제곱합 (SST) = 그룹 간 (SSB) + 그룹 내 (SSE)

 

분산분석표

  df Sum of Squares
(SS)
Mean Sum of Squares
(MSS)
F-test p-value
그룹간 k-1 SSB (between) MSB = SSB / (k-1) F = MSB / MSE  
그룹내 N-k SSE (error) MSE = SSE / (n-k)    
  N-1 SST (total)      

 

귀무가설이 기각된 경우 어떤 그룹의 평균이 다른지 설명을 제시해주지 않기 때문에 사후검정이 필요함

Tukey, Bonferroni, Scheffe, Duncan 등이 있음

더보기

- Tukey

  • 표본 수가 동일한 경우 가장 많이 사용되는 기법
  • 표본 수가 적을 수록 정확도가 낮아짐

- Bonferroni

  • 응용 범위가 높음 (모수, 비모수 모두 적용 가능)
  • 비교 대상이 많아질 수록 검정력이 약해짐

- Scheffe

  • 가장 보수적이고 엄격한 사후 검정 기법
  • 통계적으로 유의한 차이를 도출하기 쉽지 않음

- Duncan

  • 오차 비율을 통제하지 않아 상대적으로 엄격하지 않은 기준
  • 따라서 통계적 유의성을 도출하기 쉬움

X = MSB / MSE ~ F(k-1, n-k)

- 그룹별 모평균이 같다면 MSB ≒ MSE

- 그룹별 모평균이 같지 않다면 MSB > MSE

반응형

'Data Science' 카테고리의 다른 글

Claude 3.5 Sonnet 버전 1과 2 비교  (0) 2024.12.27
카이제곱 검정  (0) 2024.04.22
GA4와 BigQuery 활용 웨비나  (0) 2023.03.09
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
글 보관함