자료의 생김새를
숫자로 나타내보자

한림대학교 이윤환, http://fb.com/yoonani72
표기 방법
• 개별 관찰값
– i번째 관찰값 : 𝑥 𝑖

• 모집단의 특성
– 전체 자료의 개수 : 𝑁
– 평균 : 𝜇 (𝑚𝑢)

• 표본의 특성
– 전체 자료의 개수 : 𝑛
– 평균 : 𝑥

• 최빈값
– 관찰값중 관찰의 빈도가 가장 높은 값
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
중심?

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 중심은…
가운데

균형점

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
(산술) 평균
• 자료들의 무게 중심
• 이해를 위한 헛소리.
– 각 자료들은 1만큼의 측정 비용을 갖는다.
• 가중 평균의 경우 모두 1이 아닌 측정비용을 갖는다.

– 모든 자료들의 측정값을 합한다.
• 얼마나 측정되었는지 확인

– 합해진 측정값을 총 측정비용으로 나눈다.
• 단위 측정 비용(여기서는 1)당 얼마만큼 측정될지 기대함.

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
(산술) 평균 – R로 구하기
168

174

171

165

177

• 자료 입력
> h <- c(168, 174, 171, 165, 177)

• 전체 지불 비용 : 자료 h의 원소의 갯수
> length(h)
[1] 5

• 전체 측정값 구하기
> sumH <- sum(h)
> sumH
[1] 855
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
(산술) 평균 – R로 구하기
• 전체 측정값을 지불비용의 총합으로 나누기
> sumH / length(h)
[1] 171

• R에서의 평균 함수 : mean()
> mean(h)
[1] 171

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
(산술) 평균
• 앞선 예제 자료를 순서대로 나열해 보자.
측정비용은 무게와 같아서 모두 1로 동일

1

1

1

1

1

165

168

171

174

177

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
(산술) 평균
• 다음 변화에서 무게 중심점은 어떻게 움직일까?
1

1

1

1

1

165

168

171

175

177

1

165

R과 통계

1

168

1

171

1

1
174

한림대학교 이윤환, http://fb.com/yoonani72

177

…

195
(산술) 평균
• 평균은 양쪽 끝값의 변화에 민감하다.
– 보완사항 : x% 절사평균(Trimmed Mean)
• 작은 쪽과 큰 쪽을 각각 전체 자료중 (x/2)%의 자료를 제거
하고 남은 값들로 평균 측정
• 작은 쪽과 큰 쪽의 변화에 민감한 평균의 성질 보완
• 체조 점수의 예

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
중앙값
• 자료를 순서대로 늘어놓고 전체 자료 갯수중
50%가 되는 값 – 중앙 위치로써의 값
• 중앙값 계산하기
– 자료의 수가 홀수 : 𝑥 𝑛+1
2

– 자료의 수가 짝수 :

R과 통계

𝑥𝑛 + 𝑥 𝑛
2
2 +1
2

한림대학교 이윤환, http://fb.com/yoonani72
중앙값
• 5개의 자료가 있을 경우 그 순위만 나열해 보자.
1

2

중앙값보다 작은 자료의 수가
전체 자료의 반 이상

3

4

중앙값보다 큰 자료의 수가
전체 자료의 반 이상

이 두 조건을 동시에 만족하는 값
R과 통계

5

한림대학교 이윤환, http://fb.com/yoonani72
중앙값
• 자료의 개수가 짝수일 때
𝑥4 +

𝑥

2

2
1st
11

2nd
15

4
+1
2

=

𝑥2 +
2

𝑥3

3rd
17

4th
20

15 + 17
= 16
2

R에서는 median() 을 이용하여 구한다.
> median(c(11, 15, 17, 20))
[1] 16
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
평균과 중앙값의 관계
• 다음과 같은 자료가 있다고 하자.
3

2
1

3

4

2

3

4

5

평균 : 3, 중앙값 : 3
– 자료가 좌우대칭(중심을 기준으로 작은 쪽과 큰 쪽의
개수가 서로 같은 경우)이면 평균과 중앙값이 같다.
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
평균과 중앙값의 관계
• 앞선 자료가 다음과 같이 변한다면?
3
1

2

3

4

1

2

3

4

중앙값은 여전히 3 (5번째 위치에 있는 값이 3)
평균은 왼쪽으로 이동할까? 오른쪽으로 이동할까?

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
평균과 중앙값의 관계
• 다음과 같은 자료라면?
3
2

3

4

5

2

3

4

5

중앙값은 여전히 3 (5번째 위치에 있는 값이 3)
평균은 왼쪽으로 이동할까? 오른쪽으로 이동할까?

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
평균과 중앙값의 관계
• 평균이 양쪽 끝값의 변화에 민감한 반면 중앙값
은 민감하지 않다.
• 평균과 중앙값의 위치 만으로 대략 자료의 형태
를 유추해 볼 수 있다.
– 최빈값을 같이 알면 더 수월하게 파악할 수 있다.

• 대표값
– 어떤 관찰집단의 특징을 대표한다.
– 약점 : 정보가 한 점으로 수렴한다.
• Ex) 평균이 사람 잡는다.
• 퍼진 정도를 같이 나타내어 정보의 손실을 줄인다.
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도
• 대표값(평균 혹은 중앙값)을 중심으로 하여 얼마
나 자료들이 퍼져 있는지를 나타낸다.
• 퍼진 정도
– 범위(range) :최대값(max) – 최소값(min)
– 편차(deviation)
• 개별 관찰값 – 평균
• 편차의 합은 0이다 ← 평균의 중요 성질
– 평균에서 사용한 자료를 이용하여 R을 통한 확인
> dev <- h - mean(h)
> sum(dev)
[1] 0
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 표준편차
• 편차를 뜯어 보자.
• 다음은 앞선 평균자료에서 사용한 개별 편차이다.
> h - mean(h)
[1] -3 3 0 -6

6

– 평균의 입장에서 볼 때 -3이나 3은 모두 거리는 3만큼
떨어져 있다.
– 음수와 양수는 방향을 나타낼 뿐 평균의 입장에서는
얼마만큼 멀리 떨어져있는지 궁금하다.
– 절대값을 취해도 되지만 계산시 고려할 점이 많으니
다른 방법을 생각해 보자.
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 표준편차
• 각 편차들을 제곱해 보자.
> (h - mean(h)) ^ 2
[1] 9 9 0 36 36
• 자 이제 각 편차들에 대해 평균을 구해보자.
– 평균의 다른말로 기대값이라는 용어를 앞서 이야기 하였다.
– 개별 자료들이 평균에 대해 얼마만큼 떨어질지 기대하는 값을 구
해보자는 의미로 생각해 보자.
– 개별 편차 제곱들 역시 측정 비용으로 1만큼 갖고 있다고 생각하
고 편차 제곱 합을 편차들의 개수인 5로 나누자.

> sum((h - mean(h)) ^ 2) / 5
[1] 18
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 표준편차
• 우리가 이야기 한 것을 식으로 나타내 보자.
– 편차 : 𝑥 𝑖 − 𝑥
– 편차 제곱 : (𝑥 𝑖 − 𝑥 )2
𝑛
– 편차 제곱합 : 𝑖=1(𝑥 𝑖 − 𝑥)2
– 편차 제곱의 평균(분산) :

𝑛
2
𝑖=1(𝑥 𝑖 −𝑥 )

𝑛

– 하! 지! 만! 표본분산은 다르다!!!
• 표본분산은 모집단의 분산을 추론하기 위하 추정값
• 추정값은 불편성이라는 무서운 녀석을 만족하여야 한다.
• 이를 위해 분모를 n-1로 수정한 것이 표본분산

R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 표준편차
• 표준편차는 분산의 제곱근으로 측정값과 단위가
같다.
– 표본표준편차 :

𝑛
2
𝑖=1(𝑥 𝑖 −𝑥 )

𝑛−1

• R에서의 표본분산과 표본표준편차
> var(h)
[1] 22.5
> sd(h)
[1] 4.743416
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 사분위수범위
• 사분위수
– 자료를 순서대로 늘어놓고
•
•
•
•

25% 되는 위치의 수 : 일사분위수(𝑄1 )
50% 되는 위치의 수 : 이사분위수(𝑄2 ) = 중앙값
75% 되는 위치의 수 : 삼사분위수(𝑄3 )
100% 되는 위치의 수 : 사사분위수(𝑄4 )

라 하고 이들을 사분위수라고 한다.

• 사분위수 범위
– 삼사분위수(𝑄3 ) - 일사분위수 (𝑄1 )
– 전체 자료중 50%가 모여있는 범위를 이야기 한다.
R과 통계

한림대학교 이윤환, http://fb.com/yoonani72
자료의 퍼진 정도 - 사분위수범위
• R에서의 사분위수와 사분위수범위
> quantile(h)
0% 25% 50% 75% 100%
165 168
171
174
177
> IQR(h)
[1] 6

• 간략한 요약값들의 정보
> summary(h)
Min. 1st Qu.
165
168
R과 통계

Median
171

Mean
171

3rd Qu.
174

한림대학교 이윤환, http://fb.com/yoonani72

Max.
177
자료의 퍼진 정도 - 사분위수범위
>
+
+
+
+
+
+
>

weight <- c(
72, 74, 73, 76,
70, 72, 71, 72,
72, 77, 78, 72,
72, 73, 66, 67,
69, 75, 70, 68,
)
boxplot(weight)

R과 통계

66,
70,
69,
72,
73,

86,
72,
68,
68,
70,

70,
79,
76,
68,
68,

71,
74,
67,
67,
69,

77,
70,
69,
71,
70,

71,
74,
73,
67,
71

한림대학교 이윤환, http://fb.com/yoonani72

03.기술통계 자료의 중심과 퍼진정도

  • 1.
    자료의 생김새를 숫자로 나타내보자 한림대학교이윤환, http://fb.com/yoonani72
  • 2.
    표기 방법 • 개별관찰값 – i번째 관찰값 : 𝑥 𝑖 • 모집단의 특성 – 전체 자료의 개수 : 𝑁 – 평균 : 𝜇 (𝑚𝑢) • 표본의 특성 – 전체 자료의 개수 : 𝑛 – 평균 : 𝑥 • 최빈값 – 관찰값중 관찰의 빈도가 가장 높은 값 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 3.
    중심? R과 통계 한림대학교 이윤환,http://fb.com/yoonani72
  • 4.
    자료의 중심은… 가운데 균형점 R과 통계 한림대학교이윤환, http://fb.com/yoonani72
  • 5.
    (산술) 평균 • 자료들의무게 중심 • 이해를 위한 헛소리. – 각 자료들은 1만큼의 측정 비용을 갖는다. • 가중 평균의 경우 모두 1이 아닌 측정비용을 갖는다. – 모든 자료들의 측정값을 합한다. • 얼마나 측정되었는지 확인 – 합해진 측정값을 총 측정비용으로 나눈다. • 단위 측정 비용(여기서는 1)당 얼마만큼 측정될지 기대함. R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 6.
    (산술) 평균 –R로 구하기 168 174 171 165 177 • 자료 입력 > h <- c(168, 174, 171, 165, 177) • 전체 지불 비용 : 자료 h의 원소의 갯수 > length(h) [1] 5 • 전체 측정값 구하기 > sumH <- sum(h) > sumH [1] 855 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 7.
    (산술) 평균 –R로 구하기 • 전체 측정값을 지불비용의 총합으로 나누기 > sumH / length(h) [1] 171 • R에서의 평균 함수 : mean() > mean(h) [1] 171 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 8.
    (산술) 평균 • 앞선예제 자료를 순서대로 나열해 보자. 측정비용은 무게와 같아서 모두 1로 동일 1 1 1 1 1 165 168 171 174 177 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 9.
    (산술) 평균 • 다음변화에서 무게 중심점은 어떻게 움직일까? 1 1 1 1 1 165 168 171 175 177 1 165 R과 통계 1 168 1 171 1 1 174 한림대학교 이윤환, http://fb.com/yoonani72 177 … 195
  • 10.
    (산술) 평균 • 평균은양쪽 끝값의 변화에 민감하다. – 보완사항 : x% 절사평균(Trimmed Mean) • 작은 쪽과 큰 쪽을 각각 전체 자료중 (x/2)%의 자료를 제거 하고 남은 값들로 평균 측정 • 작은 쪽과 큰 쪽의 변화에 민감한 평균의 성질 보완 • 체조 점수의 예 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 11.
    중앙값 • 자료를 순서대로늘어놓고 전체 자료 갯수중 50%가 되는 값 – 중앙 위치로써의 값 • 중앙값 계산하기 – 자료의 수가 홀수 : 𝑥 𝑛+1 2 – 자료의 수가 짝수 : R과 통계 𝑥𝑛 + 𝑥 𝑛 2 2 +1 2 한림대학교 이윤환, http://fb.com/yoonani72
  • 12.
    중앙값 • 5개의 자료가있을 경우 그 순위만 나열해 보자. 1 2 중앙값보다 작은 자료의 수가 전체 자료의 반 이상 3 4 중앙값보다 큰 자료의 수가 전체 자료의 반 이상 이 두 조건을 동시에 만족하는 값 R과 통계 5 한림대학교 이윤환, http://fb.com/yoonani72
  • 13.
    중앙값 • 자료의 개수가짝수일 때 𝑥4 + 𝑥 2 2 1st 11 2nd 15 4 +1 2 = 𝑥2 + 2 𝑥3 3rd 17 4th 20 15 + 17 = 16 2 R에서는 median() 을 이용하여 구한다. > median(c(11, 15, 17, 20)) [1] 16 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 14.
    평균과 중앙값의 관계 •다음과 같은 자료가 있다고 하자. 3 2 1 3 4 2 3 4 5 평균 : 3, 중앙값 : 3 – 자료가 좌우대칭(중심을 기준으로 작은 쪽과 큰 쪽의 개수가 서로 같은 경우)이면 평균과 중앙값이 같다. R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 15.
    평균과 중앙값의 관계 •앞선 자료가 다음과 같이 변한다면? 3 1 2 3 4 1 2 3 4 중앙값은 여전히 3 (5번째 위치에 있는 값이 3) 평균은 왼쪽으로 이동할까? 오른쪽으로 이동할까? R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 16.
    평균과 중앙값의 관계 •다음과 같은 자료라면? 3 2 3 4 5 2 3 4 5 중앙값은 여전히 3 (5번째 위치에 있는 값이 3) 평균은 왼쪽으로 이동할까? 오른쪽으로 이동할까? R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 17.
    평균과 중앙값의 관계 •평균이 양쪽 끝값의 변화에 민감한 반면 중앙값 은 민감하지 않다. • 평균과 중앙값의 위치 만으로 대략 자료의 형태 를 유추해 볼 수 있다. – 최빈값을 같이 알면 더 수월하게 파악할 수 있다. • 대표값 – 어떤 관찰집단의 특징을 대표한다. – 약점 : 정보가 한 점으로 수렴한다. • Ex) 평균이 사람 잡는다. • 퍼진 정도를 같이 나타내어 정보의 손실을 줄인다. R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 18.
    자료의 퍼진 정도 •대표값(평균 혹은 중앙값)을 중심으로 하여 얼마 나 자료들이 퍼져 있는지를 나타낸다. • 퍼진 정도 – 범위(range) :최대값(max) – 최소값(min) – 편차(deviation) • 개별 관찰값 – 평균 • 편차의 합은 0이다 ← 평균의 중요 성질 – 평균에서 사용한 자료를 이용하여 R을 통한 확인 > dev <- h - mean(h) > sum(dev) [1] 0 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 19.
    자료의 퍼진 정도- 표준편차 • 편차를 뜯어 보자. • 다음은 앞선 평균자료에서 사용한 개별 편차이다. > h - mean(h) [1] -3 3 0 -6 6 – 평균의 입장에서 볼 때 -3이나 3은 모두 거리는 3만큼 떨어져 있다. – 음수와 양수는 방향을 나타낼 뿐 평균의 입장에서는 얼마만큼 멀리 떨어져있는지 궁금하다. – 절대값을 취해도 되지만 계산시 고려할 점이 많으니 다른 방법을 생각해 보자. R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 20.
    자료의 퍼진 정도- 표준편차 • 각 편차들을 제곱해 보자. > (h - mean(h)) ^ 2 [1] 9 9 0 36 36 • 자 이제 각 편차들에 대해 평균을 구해보자. – 평균의 다른말로 기대값이라는 용어를 앞서 이야기 하였다. – 개별 자료들이 평균에 대해 얼마만큼 떨어질지 기대하는 값을 구 해보자는 의미로 생각해 보자. – 개별 편차 제곱들 역시 측정 비용으로 1만큼 갖고 있다고 생각하 고 편차 제곱 합을 편차들의 개수인 5로 나누자. > sum((h - mean(h)) ^ 2) / 5 [1] 18 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 21.
    자료의 퍼진 정도- 표준편차 • 우리가 이야기 한 것을 식으로 나타내 보자. – 편차 : 𝑥 𝑖 − 𝑥 – 편차 제곱 : (𝑥 𝑖 − 𝑥 )2 𝑛 – 편차 제곱합 : 𝑖=1(𝑥 𝑖 − 𝑥)2 – 편차 제곱의 평균(분산) : 𝑛 2 𝑖=1(𝑥 𝑖 −𝑥 ) 𝑛 – 하! 지! 만! 표본분산은 다르다!!! • 표본분산은 모집단의 분산을 추론하기 위하 추정값 • 추정값은 불편성이라는 무서운 녀석을 만족하여야 한다. • 이를 위해 분모를 n-1로 수정한 것이 표본분산 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 22.
    자료의 퍼진 정도- 표준편차 • 표준편차는 분산의 제곱근으로 측정값과 단위가 같다. – 표본표준편차 : 𝑛 2 𝑖=1(𝑥 𝑖 −𝑥 ) 𝑛−1 • R에서의 표본분산과 표본표준편차 > var(h) [1] 22.5 > sd(h) [1] 4.743416 R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 23.
    자료의 퍼진 정도- 사분위수범위 • 사분위수 – 자료를 순서대로 늘어놓고 • • • • 25% 되는 위치의 수 : 일사분위수(𝑄1 ) 50% 되는 위치의 수 : 이사분위수(𝑄2 ) = 중앙값 75% 되는 위치의 수 : 삼사분위수(𝑄3 ) 100% 되는 위치의 수 : 사사분위수(𝑄4 ) 라 하고 이들을 사분위수라고 한다. • 사분위수 범위 – 삼사분위수(𝑄3 ) - 일사분위수 (𝑄1 ) – 전체 자료중 50%가 모여있는 범위를 이야기 한다. R과 통계 한림대학교 이윤환, http://fb.com/yoonani72
  • 24.
    자료의 퍼진 정도- 사분위수범위 • R에서의 사분위수와 사분위수범위 > quantile(h) 0% 25% 50% 75% 100% 165 168 171 174 177 > IQR(h) [1] 6 • 간략한 요약값들의 정보 > summary(h) Min. 1st Qu. 165 168 R과 통계 Median 171 Mean 171 3rd Qu. 174 한림대학교 이윤환, http://fb.com/yoonani72 Max. 177
  • 25.
    자료의 퍼진 정도- 사분위수범위 > + + + + + + > weight <- c( 72, 74, 73, 76, 70, 72, 71, 72, 72, 77, 78, 72, 72, 73, 66, 67, 69, 75, 70, 68, ) boxplot(weight) R과 통계 66, 70, 69, 72, 73, 86, 72, 68, 68, 70, 70, 79, 76, 68, 68, 71, 74, 67, 67, 69, 77, 70, 69, 71, 70, 71, 74, 73, 67, 71 한림대학교 이윤환, http://fb.com/yoonani72