우리가 살아가는 도시

사회과학 통계분석 - 2 본문

내가 알아가는 도시/Statistics

사회과학 통계분석 - 2

세화주 2016. 2. 22. 17:23

2. 표본과 모집단

 

1) 오차(error term)

■ 모집단의 휘귀식과 개별값의 차이

 

 

2) 잔차(Residula)

■ 표본 회귀식 값과 개별값과의 차이

 

 

3) 표준편차(Standard deviation)

평균에서 개별값과의 차이의 평균의 제곱근

 

 

4) 표준오차(Standard error)(표본평균의 표준편차)

각 표본들의 평균이 전체 평균과 얼마나 떨어져 있는가를 나타냄

■ 평균의 정확도를 추정할 수 있다

 

 

5) 표본오차(Sampling error)

Sampling에 의한 오차

■ 표본추출 과정에 어쩔수 없이 발생되는 통계적 오차

■ 모수(참값)아 표본통계량(추정값) 사이의 불일치

■ 모집단의 일부를 표본추출하여 모수를 통계적으로 추정 함으로 인하여 발생

■ 모수와 추정치와의 오차

 

 

6) 비표본오차

■ 표본의 선택 추출에서 자연적으로 발생하는 오차가 아니라, 표본의 성격을 잘못 관찰, 측정, 기록하여 발생하는 오차

 

 

7) 모집단과 표본의 평균과 표준편차 표기방법

■ 모집단의 평균 =

■ 모집단의 표준편차 =

■ 표본의 평균 =

■ 표본의 표준편차 =

 

 

8) 표본평균들 분포에서의 확률계산

■ 표본평균들의 분포는 정규분포를 가정하고, 이 정규분포를 표준정규분포로 전환시킴으로써 확률을 계산할 수 있음

■ 표본평균들의 분포를 표준정규분포로 전환하기 위해서는 각 표본의 평균들이 표본평균들의 평균으로부터 몇 표준오차 떨어져 있는가를 계산해야 하는데 이때 Z값을 구하는 공식을 이용

 

■ 표준오차 구하는 방법

 

 

 

■ Z값을 구하는 방법

 

 

 

 

■ 예를들어 우리나라 노동자들의 평균 연봉을 조사히기 위해 100명씩 표본을 추출하는 것을 무한히 반복하여 그들의 평균을 구한 후, 그 표본평균들의 평균과 표준오차(표본평균의 표준편차)를 구했더니 각각 2000만원과 150만원이었다. 이 때 한 번 표본추출을 했을 때 그 표본의 평균이 2200만원 이상일 확률은 얼마인가를 구해보자

- 표본의 평균(2200)이 표본평균들의 평균(2000)으로부터 몇 Z떨어져 있는가를 공식을 이용해서 구하면

(2200-2000)/150 = 1.33

- Z가 1.33일 때 확률은 0.4082이며

- Z=1.33인 부분의 확률은 0.5-0.4082 = 0.0918로

- 9.18%를 도출해 낼 수 있다.

 

 

9) 신뢰구간

■ 표본평균에 의해 모집단의 평균을 추정하고자 할 때 신뢰구간을 사용

 

■ 모집단으로부터 표본을 추추라는 경우 항상 표본오차가 존재하기 때문에, 즉 아무리 표본추출을 주의 깊게  하여도 모집단을 완전히 대변할 수 있는 표본을 추출할 수 없기 때문에 표본평균에 의해 모집단의 평균을 정확하게 예측하기가 어렵고 일정한 신뢰구간을 표시하여 모집단을 예측할 수 밖에 없음

 

■ 예를 들어 한 학교 전체 학생 1500명에 대해 평균 IQ점수를 조사해 보고자 한다. 이 경우 모집단 전체 학생의 IQ를 조사하려면 시간과 비용이 많이 들기 때문에 이 중에서 36명을 선발하여 IQ점수의 평균을 구한 후, 이를 통해 모집단 1500명에 대한 IQ점수를 추정하고자 한다. 36명에 대해 IQ테스트를 실시하여 평균을 구하니 103점이었다. 그러나 103점은 표본의 평균이기 때문에 이 점수가 모집단의 평균과 정확히 일치한다고 할 수는 없다.

 

■ 반면에 우리는 모집단으로부터 추출한 모든 표본들의 평균들 중 68.26%가 모집단의 평균으로부터 +/-1표준편차 안에 놓이게 된다는 것을 알 수 있었다. 즉 +/-1표준편차 범위 내에 모집단의 평균이 놓일 확률이 68.26%라는 것이다.

 

만약에 표준오차가 3이라면

68.26%에서는 표본오차가 (+/-3)

95%에서는 표본오차가 (+/-5.88)

 

68.26%신뢰구간 = 103 - (1*3) ~ 103 + (1*3) = 100 ~ 106

이 말인 즉슨, 100~106 사이에 모집단의 평균이 놓일 확률이 68.26%라는 것을 의미하고

반대로 해석하면 31.74%의 오류를 범할 수 있다는 것을 의미함

 

95%의 신뢰구간 = 103 - (1.96*3) ~ 103 + (1.96*3) = 97.12 ~ 108.88

이 말인 즉슨, 97.12 ~ 108.88 사이에 모집단의 평균이 놓일 확률이 95%라는 것을 의미하고

반대로 해석하면 5%의 오류를 범할 수 있다는 것을 의미함

 

■ 신뢰구간

- 99% 신뢰구간: (99%일 때 Z값은 2.58)

- 95% 신뢰구간 : (95%일 때 Z값은 1.96)

- 68.26% 신뢰구간: (68.26%일 때 Z값은 1)

 

 

- 표준오차 = 모집단의 표준편차 / 표본수의 제곱근

 

■  예를들어 어느 병원에서 1년동안 암으로 진단을 받은 환자가 1000명이었다. 이들 환자가 암으로 진단받은 후 평균 며칠 후에 죽게 되는가를 조사하고자 한다. 이 경우 100명의 환자를 조사하여 그 결과에 의해 모집단의 환자들이 암 진단 후 평균적으로 며칠 생존하는가를 추정하고자 한다. 표본의 평균 생존일수가 200일이었고, 모집단의 표준편차가 30일이었을 때 98%의 신뢰수준에서 모집단의 평균의 신뢰구간을 구하여라

** 여기서 모집단의 표준편차를 30일로 주어지고 있지만 사실 알기 힘들며, 이로인해 T분포를 사용한다.

 

- 98%에서의 신뢰구간에서의 Z값을 구하면

- 우선 0.98 /2 = 0.49이며

- 0.49일 때 Z값은 2.33 (Z=2.33)

- 표준오차는 모집단의 표준편차 / 표본수의 제곱근

- 즉 30 / 제곱근100 = 3

- 98%의 신뢰구간 =

- 200 +/- 2.33*3

- 200 +/- 6.99

- 193.01~206.99

 

■  즉 표본조사를 통해 98%의 신뢰수준을 가지고 모집단의 평균 생존기간이 193.01~206.99일이라고 말할 수 있음

 

 

=====================================================================================

 

(1) 표준오차

 

 

(2) Z값

 

 

(3) 신뢰구간

 

 

(4) 표본오차

 

 

(5) 표준오차(실제로 표본평균의 표준편차를 알기 어렵다 . 그 이유는 모집단에서 한 두번 조사를 실시하기 때문에....이러한 이유로 모집단의 표준편차()를 사용하는 방법)

 

 

(6) 표준오차(실제로 모집단의 표준편차()를 아는 것도 힘듬.... 때문에 표본의 표준편차()를 사용)

 

(1), (5), (6)을 비교

 

 

따라서 여기에서 Z의 값음

 

'내가 알아가는 도시 > Statistics' 카테고리의 다른 글

R통계-3  (0) 2016.10.11
R통계-2  (0) 2016.09.28
R통계-1  (0) 2016.09.15
사회과학 통계분석-3(작성중)  (0) 2016.03.09
사회과학과 통계분석 - 1  (0) 2016.02.17