세 표본 이상의 평균비교
세 표본 이상의 평균비교
• 일원분산분석(One-way ANOVA)
– 독립인 두 표본의 평균 비교의 확장으로 세 표본 이상
의 평균이 모두 같은지 검정
– 분산분석(ANalysis Of VAriance)
• 전체 자료의 분산(변동량)을 어떤 요인(혹은 요인들)에 의한
분산과 자연발생적인 분산으로 나누어 요인에 의한 분산이 자
연발생적인 분산보다 클 경우(분산비가 클 경우)에 자료 내의
분산은 어떤 요인에 의해 발생했음을 판별하는 방법

– 가설 : 세 표본으로 이뤄진 경우
• 영가설 : 𝜇1 = 𝜇2 = 𝜇3
• 대안가설 : 적어도 한 집단의 평균은 다르다.

한림대학교 이윤환(http://fb.com/yoonani72)
세 표본 이상의 평균비교
• 분산분석표
– 분산분석의 결과. 즉, 요인에 의한 분산과 자연발생적
인 분산을 표로 나타낸 것
– 분산분석의 검정통계량은 분산분석표 상의 분산비를
나타내는 F 분포로 부터 도출
요인

제곱합

자유도

처리

𝑆𝑆 𝑡

𝑘−1

오차

𝑆𝑆 𝑒

𝑁− 𝑘

합

𝑆𝑆 𝑡𝑜𝑡𝑎𝑙

평균제곱합
𝑆𝑆 𝑡
𝑀𝑆 𝑡 =
𝑘−1
𝑆𝑆 𝑒
𝑀𝑆 𝑒 =
𝑁−k

𝑁−1

한림대학교 이윤환(http://fb.com/yoonani72)

F
𝐹=

𝑀𝑆 𝑡
𝑀𝑆 𝑒
세 표본 이상의 평균비교
• 사후검정
– 앞선 가설검정에서 대안가설을 채택한 경우. 즉, 적어
도 한 집단의 평균은 다를 경우 어느 집단의 평균이 차
이가 나는 지를 검정
– 서로 두 집단별로 독립인 t 검정을 실시하는 것과 유사
한 과정

한림대학교 이윤환(http://fb.com/yoonani72)
세 표본 이상의 평균비교
• 예제) R 내장 데이터인 iris
– 분꽃 품종별 꽃받침(sepal)과 꽃잎(petal)의 길이와
넓이가 기록된 데이터
> str( iris )
'data.frame':
150 obs. of 5 variables:
$ Sepal.Length: num ...
$ Sepal.Width : num ...
$ Petal.Length: num ...
$ Petal.Width : num ...
$ Species
: Factor w/ 3 levels
"setosa","versicolor",“virginica" ...

– 품종별 꽃잎의 넓이의 차이가 있는지 알아보자.
한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 전체 변동량 : 총 제곱합
– (개별 꽃잎의 넓이 – 전체 꽃잎의 평균)2 의 합
–

𝑘
𝑖=1

𝑛𝑖
𝑗=1(𝑦 𝑖𝑗

− 𝑦.. )2

𝑘 : 그룹(서로 다른 표본)의 수
𝑛 𝑖 : 그룹별 표본의 수
𝑦 𝑖𝑗 : i번째 그룹의 j 번째 관찰값
𝑦.. : 전체 평균

– R을 통한 계산
> attach(iris)
> ybar <- mean(Petal.Width)
> sum((Petal.Width - ybar)^2)
[1] 86.56993
한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 전체 변동량의 분해
– 요인에 의한 변동량 (그룹간 변동량, Between Difference) :
처리제곱합
– 자연발생적인 변동량 (그룹내 변동량, With-in Difference) :
오차제곱합
–

𝑘
𝑖=1

𝑛𝑖
𝑗=1(𝑦 𝑖𝑗

𝑘
𝑖=1

− 𝑦.. )2 =
+

𝑛 𝑖 (𝑦 𝑖. − 𝑦.. )2
𝑘
𝑖=1

𝑛𝑖
𝑗=1(𝑦 𝑖𝑗

− 𝑦 𝑖. )2

– 각 집단별 평균
> mg <- aggregate(Petal.Width, by=list(Species), mean)
> mg
Group.1
x
1
setosa 0.246
2 versicolor 1.326
3 virginica 2.026
한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 처리 제곱합

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 오차 제곱합

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 통계적 모형
– 두 개의 변수가 있다고 할 때 한 변수가 다른 변수의
원인이 될 경우 설명변수(독립변수)라 부르고 결과되
는 변수를 반응변수(종속변수) 라 부른다
– 수리적 표현
• 𝑦 𝑖 = 𝑥 𝑖 + 𝜀 𝑖,

𝑦 𝑖 : 반응변수
𝑥 𝑖 : 설명변수
𝜀 𝑖 : 오차항 (자연발생적인 오차)

– R에서의 표현 : 𝑦 𝑖 ~ 𝑥 𝑖
– 이 예제에서는 반응변수는 꽃잎의 넓이가 되고 설명변
수 종(Species)가 된다. 즉, 종에 따라 넓이가 설명됨
을 나타낸다.
한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 가설 수립
– 영가설 : 𝜇 𝑠𝑒𝑡𝑜𝑠𝑎 = 𝜇 𝑣𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 = 𝜇 𝑣𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎
• 분꽃(iris)는 종에 따라 꽃잎 넓이의 평균에 차이가 없다.

– 대안가설 : 𝑛𝑜𝑡 𝐻0 , 즉 적어도 하나의 종은 차이가 있다.
• 분꽃(iris)는 종에 따라 꽃잎 넓이의 평균에 차이가 있다.
• 주의 : 세 종의 평균이 모두 다르다.
즉, 𝜇 𝑠𝑒𝑡𝑜𝑠𝑎 ≠ 𝜇 𝑣𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 ≠ 𝜇 𝑣𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎 를 뜻하는 것이 아님

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 분산분석표 : 검정통계량을 구하기 위한 R 사용과 판정
> out <- aov( Petal.Width ~ Species)
> summary(out)
Df Sum Sq Mean Sq F value Pr(>F)
Species
2 80.41
40.21
960 <2e-16 ***
Residuals
147
6.16
0.04
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 다중비교 : TukeyHSD 사용
> TukeyHSD(out)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Petal.Width ~ Species)

$Species
diff
lwr
upr p adj
versicolor-setosa
1.08 0.9830903 1.1769097
0
virginica-setosa
1.78 1.6830903 1.8769097
0
virginica-versicolor 0.70 0.6030903 0.7969097
0

한림대학교 이윤환(http://fb.com/yoonani72)
분석 예제
• 다중비교 : TukeyHSD 사용 - 그래프
> plot(TukeyHSD(out, "Species"))

한림대학교 이윤환(http://fb.com/yoonani72)

12.세표본 이상의 평균비교

  • 1.
  • 2.
    세 표본 이상의평균비교 • 일원분산분석(One-way ANOVA) – 독립인 두 표본의 평균 비교의 확장으로 세 표본 이상 의 평균이 모두 같은지 검정 – 분산분석(ANalysis Of VAriance) • 전체 자료의 분산(변동량)을 어떤 요인(혹은 요인들)에 의한 분산과 자연발생적인 분산으로 나누어 요인에 의한 분산이 자 연발생적인 분산보다 클 경우(분산비가 클 경우)에 자료 내의 분산은 어떤 요인에 의해 발생했음을 판별하는 방법 – 가설 : 세 표본으로 이뤄진 경우 • 영가설 : 𝜇1 = 𝜇2 = 𝜇3 • 대안가설 : 적어도 한 집단의 평균은 다르다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 3.
    세 표본 이상의평균비교 • 분산분석표 – 분산분석의 결과. 즉, 요인에 의한 분산과 자연발생적 인 분산을 표로 나타낸 것 – 분산분석의 검정통계량은 분산분석표 상의 분산비를 나타내는 F 분포로 부터 도출 요인 제곱합 자유도 처리 𝑆𝑆 𝑡 𝑘−1 오차 𝑆𝑆 𝑒 𝑁− 𝑘 합 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 평균제곱합 𝑆𝑆 𝑡 𝑀𝑆 𝑡 = 𝑘−1 𝑆𝑆 𝑒 𝑀𝑆 𝑒 = 𝑁−k 𝑁−1 한림대학교 이윤환(http://fb.com/yoonani72) F 𝐹= 𝑀𝑆 𝑡 𝑀𝑆 𝑒
  • 4.
    세 표본 이상의평균비교 • 사후검정 – 앞선 가설검정에서 대안가설을 채택한 경우. 즉, 적어 도 한 집단의 평균은 다를 경우 어느 집단의 평균이 차 이가 나는 지를 검정 – 서로 두 집단별로 독립인 t 검정을 실시하는 것과 유사 한 과정 한림대학교 이윤환(http://fb.com/yoonani72)
  • 5.
    세 표본 이상의평균비교 • 예제) R 내장 데이터인 iris – 분꽃 품종별 꽃받침(sepal)과 꽃잎(petal)의 길이와 넓이가 기록된 데이터 > str( iris ) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num ... $ Sepal.Width : num ... $ Petal.Length: num ... $ Petal.Width : num ... $ Species : Factor w/ 3 levels "setosa","versicolor",“virginica" ... – 품종별 꽃잎의 넓이의 차이가 있는지 알아보자. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 6.
    분석 예제 • 전체변동량 : 총 제곱합 – (개별 꽃잎의 넓이 – 전체 꽃잎의 평균)2 의 합 – 𝑘 𝑖=1 𝑛𝑖 𝑗=1(𝑦 𝑖𝑗 − 𝑦.. )2 𝑘 : 그룹(서로 다른 표본)의 수 𝑛 𝑖 : 그룹별 표본의 수 𝑦 𝑖𝑗 : i번째 그룹의 j 번째 관찰값 𝑦.. : 전체 평균 – R을 통한 계산 > attach(iris) > ybar <- mean(Petal.Width) > sum((Petal.Width - ybar)^2) [1] 86.56993 한림대학교 이윤환(http://fb.com/yoonani72)
  • 7.
  • 8.
    분석 예제 • 전체변동량의 분해 – 요인에 의한 변동량 (그룹간 변동량, Between Difference) : 처리제곱합 – 자연발생적인 변동량 (그룹내 변동량, With-in Difference) : 오차제곱합 – 𝑘 𝑖=1 𝑛𝑖 𝑗=1(𝑦 𝑖𝑗 𝑘 𝑖=1 − 𝑦.. )2 = + 𝑛 𝑖 (𝑦 𝑖. − 𝑦.. )2 𝑘 𝑖=1 𝑛𝑖 𝑗=1(𝑦 𝑖𝑗 − 𝑦 𝑖. )2 – 각 집단별 평균 > mg <- aggregate(Petal.Width, by=list(Species), mean) > mg Group.1 x 1 setosa 0.246 2 versicolor 1.326 3 virginica 2.026 한림대학교 이윤환(http://fb.com/yoonani72)
  • 9.
    분석 예제 • 처리제곱합 한림대학교 이윤환(http://fb.com/yoonani72)
  • 10.
    분석 예제 • 오차제곱합 한림대학교 이윤환(http://fb.com/yoonani72)
  • 11.
    분석 예제 • 통계적모형 – 두 개의 변수가 있다고 할 때 한 변수가 다른 변수의 원인이 될 경우 설명변수(독립변수)라 부르고 결과되 는 변수를 반응변수(종속변수) 라 부른다 – 수리적 표현 • 𝑦 𝑖 = 𝑥 𝑖 + 𝜀 𝑖, 𝑦 𝑖 : 반응변수 𝑥 𝑖 : 설명변수 𝜀 𝑖 : 오차항 (자연발생적인 오차) – R에서의 표현 : 𝑦 𝑖 ~ 𝑥 𝑖 – 이 예제에서는 반응변수는 꽃잎의 넓이가 되고 설명변 수 종(Species)가 된다. 즉, 종에 따라 넓이가 설명됨 을 나타낸다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 12.
    분석 예제 • 가설수립 – 영가설 : 𝜇 𝑠𝑒𝑡𝑜𝑠𝑎 = 𝜇 𝑣𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 = 𝜇 𝑣𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎 • 분꽃(iris)는 종에 따라 꽃잎 넓이의 평균에 차이가 없다. – 대안가설 : 𝑛𝑜𝑡 𝐻0 , 즉 적어도 하나의 종은 차이가 있다. • 분꽃(iris)는 종에 따라 꽃잎 넓이의 평균에 차이가 있다. • 주의 : 세 종의 평균이 모두 다르다. 즉, 𝜇 𝑠𝑒𝑡𝑜𝑠𝑎 ≠ 𝜇 𝑣𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 ≠ 𝜇 𝑣𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎 를 뜻하는 것이 아님 한림대학교 이윤환(http://fb.com/yoonani72)
  • 13.
    분석 예제 • 분산분석표: 검정통계량을 구하기 위한 R 사용과 판정 > out <- aov( Petal.Width ~ Species) > summary(out) Df Sum Sq Mean Sq F value Pr(>F) Species 2 80.41 40.21 960 <2e-16 *** Residuals 147 6.16 0.04 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 한림대학교 이윤환(http://fb.com/yoonani72)
  • 14.
    분석 예제 • 다중비교: TukeyHSD 사용 > TukeyHSD(out) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Petal.Width ~ Species) $Species diff lwr upr p adj versicolor-setosa 1.08 0.9830903 1.1769097 0 virginica-setosa 1.78 1.6830903 1.8769097 0 virginica-versicolor 0.70 0.6030903 0.7969097 0 한림대학교 이윤환(http://fb.com/yoonani72)
  • 15.
    분석 예제 • 다중비교: TukeyHSD 사용 - 그래프 > plot(TukeyHSD(out, "Species")) 한림대학교 이윤환(http://fb.com/yoonani72)