티스토리 뷰
반응형
- t-test는 2개 집단에 대한 평균 차이를 검증하는 방법 -> 3개 이상의 집단부터는 불가능
- 분산분석(ANOVA)는 2개 이상의 집단에 대한 비교를 수행
평균 차이를 검증하기 위함인데 왜 분산?
- 분산이란 평균에서 얼마나 흩어져 있는지 정도인데 분산이 커진다면 집단 간의 평균이 차이가 있다는 것으로 볼 수도 있음
- 분산의 분포를 볼 때는 F분포 이용
- F ratio (F 검정통계량) = 그룹 간 분산 / 그룹 내 분산
가설검정
- H0 : 모든 그룹의 평균이 같다
- H1 : 어떤 그룹의 평균이 같지 않다 (적어도 하나의 그룹은 다른 평균을 가지고 있다)
전체 분산은 두 개의 독립적인 분산으로 구성되어 있다
- 그룹별 특성에 따른 분산 (SSB)
- Random error로서의 분산 (SSE : Sum of Square Error)
- 전체 제곱합 (SST) = 그룹 간 (SSB) + 그룹 내 (SSE)
분산분석표
df | Sum of Squares (SS) |
Mean Sum of Squares (MSS) |
F-test | p-value | |
그룹간 | k-1 | SSB (between) | MSB = SSB / (k-1) | F = MSB / MSE | |
그룹내 | N-k | SSE (error) | MSE = SSE / (n-k) | ||
N-1 | SST (total) |
귀무가설이 기각된 경우 어떤 그룹의 평균이 다른지 설명을 제시해주지 않기 때문에 사후검정이 필요함
Tukey, Bonferroni, Scheffe, Duncan 등이 있음
더보기
- Tukey
- 표본 수가 동일한 경우 가장 많이 사용되는 기법
- 표본 수가 적을 수록 정확도가 낮아짐
- Bonferroni
- 응용 범위가 높음 (모수, 비모수 모두 적용 가능)
- 비교 대상이 많아질 수록 검정력이 약해짐
- Scheffe
- 가장 보수적이고 엄격한 사후 검정 기법
- 통계적으로 유의한 차이를 도출하기 쉽지 않음
- Duncan
- 오차 비율을 통제하지 않아 상대적으로 엄격하지 않은 기준
- 따라서 통계적 유의성을 도출하기 쉬움
X = MSB / MSE ~ F(k-1, n-k)
- 그룹별 모평균이 같다면 MSB ≒ MSE
- 그룹별 모평균이 같지 않다면 MSB > MSE
반응형
'Data Science' 카테고리의 다른 글
Claude 3.5 Sonnet 버전 1과 2 비교 (0) | 2024.12.27 |
---|---|
카이제곱 검정 (0) | 2024.04.22 |
GA4와 BigQuery 활용 웨비나 (0) | 2023.03.09 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- react
- 삼성
- Polygon
- aws
- architecting
- submodule
- 블로그플랫폼
- SCSA
- 역량테스트
- docker
- Python
- graphql
- konlpy
- 삼전
- 도커컨테이너
- Plotly
- polyfill
- svelte
- choropleth
- cssom
- 렌더트리
- ReactDOM
- 삼성전자
- tsconfig
- wkt
- GeoPolygon
- 카이제곱검정
- Next.js
- SW역량테스트
- DOM
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
글 보관함