일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 통계
- FUJIx100f
- 다시장인인다
- nofilter
- 일본연구
- R통계
- 링크타운
- 트랜지션타운
- 문화
- 정선 가볼만한 곳
- 건담프라모델
- 산업연관분석
- 지속가능한개발
- 사북 석탄
- python
- 얀겔
- 오타루
- python 기초
- Greeen
- 짱구는 못말려 15기
- #협력적계획이론 #패치힐리 #도시계획이론
- 지구정치학담론
- R프로그램
- 오사카생활
- FUJIJILM
- 일본
- 산업연관표
- 타지리초
- 얀겔의 위대한 실험
- x100f
- Today
- Total
우리가 살아가는 도시
사회과학 통계분석 - 2 본문
2. 표본과 모집단
1) 오차(error term)
■ 모집단의 휘귀식과 개별값의 차이
2) 잔차(Residula)
■ 표본 회귀식 값과 개별값과의 차이
3) 표준편차(Standard deviation)
■ 평균에서 개별값과의 차이의 평균의 제곱근
4) 표준오차(Standard error)(표본평균의 표준편차)
■ 각 표본들의 평균이 전체 평균과 얼마나 떨어져 있는가를 나타냄
■ 평균의 정확도를 추정할 수 있다
5) 표본오차(Sampling error)
■ Sampling에 의한 오차
■ 표본추출 과정에 어쩔수 없이 발생되는 통계적 오차
■ 모수(참값)아 표본통계량(추정값) 사이의 불일치
■ 모집단의 일부를 표본추출하여 모수를 통계적으로 추정 함으로 인하여 발생
■ 모수와 추정치와의 오차
6) 비표본오차
■ 표본의 선택 추출에서 자연적으로 발생하는 오차가 아니라, 표본의 성격을 잘못 관찰, 측정, 기록하여 발생하는 오차
7) 모집단과 표본의 평균과 표준편차 표기방법
■ 모집단의 평균 =
■ 모집단의 표준편차 =
■ 표본의 평균 =
■ 표본의 표준편차 =
8) 표본평균들 분포에서의 확률계산
■ 표본평균들의 분포는 정규분포를 가정하고, 이 정규분포를 표준정규분포로 전환시킴으로써 확률을 계산할 수 있음
■ 표본평균들의 분포를 표준정규분포로 전환하기 위해서는 각 표본의 평균들이 표본평균들의 평균으로부터 몇 표준오차 떨어져 있는가를 계산해야 하는데 이때 Z값을 구하는 공식을 이용
■ 표준오차 구하는 방법
■ Z값을 구하는 방법
■ 예를들어 우리나라 노동자들의 평균 연봉을 조사히기 위해 100명씩 표본을 추출하는 것을 무한히 반복하여 그들의 평균을 구한 후, 그 표본평균들의 평균과 표준오차(표본평균의 표준편차)를 구했더니 각각 2000만원과 150만원이었다. 이 때 한 번 표본추출을 했을 때 그 표본의 평균이 2200만원 이상일 확률은 얼마인가를 구해보자
- 표본의 평균(2200)이 표본평균들의 평균(2000)으로부터 몇 Z떨어져 있는가를 공식을 이용해서 구하면
(2200-2000)/150 = 1.33
- Z가 1.33일 때 확률은 0.4082이며
- Z=1.33인 부분의 확률은 0.5-0.4082 = 0.0918로
- 9.18%를 도출해 낼 수 있다.
9) 신뢰구간
■ 표본평균에 의해 모집단의 평균을 추정하고자 할 때 신뢰구간을 사용
■ 모집단으로부터 표본을 추추라는 경우 항상 표본오차가 존재하기 때문에, 즉 아무리 표본추출을 주의 깊게 하여도 모집단을 완전히 대변할 수 있는 표본을 추출할 수 없기 때문에 표본평균에 의해 모집단의 평균을 정확하게 예측하기가 어렵고 일정한 신뢰구간을 표시하여 모집단을 예측할 수 밖에 없음
■ 예를 들어 한 학교 전체 학생 1500명에 대해 평균 IQ점수를 조사해 보고자 한다. 이 경우 모집단 전체 학생의 IQ를 조사하려면 시간과 비용이 많이 들기 때문에 이 중에서 36명을 선발하여 IQ점수의 평균을 구한 후, 이를 통해 모집단 1500명에 대한 IQ점수를 추정하고자 한다. 36명에 대해 IQ테스트를 실시하여 평균을 구하니 103점이었다. 그러나 103점은 표본의 평균이기 때문에 이 점수가 모집단의 평균과 정확히 일치한다고 할 수는 없다.
■ 반면에 우리는 모집단으로부터 추출한 모든 표본들의 평균들 중 68.26%가 모집단의 평균으로부터 +/-1표준편차 안에 놓이게 된다는 것을 알 수 있었다. 즉 +/-1표준편차 범위 내에 모집단의 평균이 놓일 확률이 68.26%라는 것이다.
만약에 표준오차가 3이라면
68.26%에서는 표본오차가 (+/-3)
95%에서는 표본오차가 (+/-5.88)
68.26%신뢰구간 = 103 - (1*3) ~ 103 + (1*3) = 100 ~ 106
이 말인 즉슨, 100~106 사이에 모집단의 평균이 놓일 확률이 68.26%라는 것을 의미하고
반대로 해석하면 31.74%의 오류를 범할 수 있다는 것을 의미함
95%의 신뢰구간 = 103 - (1.96*3) ~ 103 + (1.96*3) = 97.12 ~ 108.88
이 말인 즉슨, 97.12 ~ 108.88 사이에 모집단의 평균이 놓일 확률이 95%라는 것을 의미하고
반대로 해석하면 5%의 오류를 범할 수 있다는 것을 의미함
■ 신뢰구간
- 99% 신뢰구간: (99%일 때 Z값은 2.58)
- 95% 신뢰구간 : (95%일 때 Z값은 1.96)
- 68.26% 신뢰구간: (68.26%일 때 Z값은 1)
- 표준오차 = 모집단의 표준편차 / 표본수의 제곱근
■ 예를들어 어느 병원에서 1년동안 암으로 진단을 받은 환자가 1000명이었다. 이들 환자가 암으로 진단받은 후 평균 며칠 후에 죽게 되는가를 조사하고자 한다. 이 경우 100명의 환자를 조사하여 그 결과에 의해 모집단의 환자들이 암 진단 후 평균적으로 며칠 생존하는가를 추정하고자 한다. 표본의 평균 생존일수가 200일이었고, 모집단의 표준편차가 30일이었을 때 98%의 신뢰수준에서 모집단의 평균의 신뢰구간을 구하여라
** 여기서 모집단의 표준편차를 30일로 주어지고 있지만 사실 알기 힘들며, 이로인해 T분포를 사용한다.
- 98%에서의 신뢰구간에서의 Z값을 구하면
- 우선 0.98 /2 = 0.49이며
- 0.49일 때 Z값은 2.33 (Z=2.33)
- 표준오차는 모집단의 표준편차 / 표본수의 제곱근
- 즉 30 / 제곱근100 = 3
- 98%의 신뢰구간 =
- 200 +/- 2.33*3
- 200 +/- 6.99
- 193.01~206.99
■ 즉 표본조사를 통해 98%의 신뢰수준을 가지고 모집단의 평균 생존기간이 193.01~206.99일이라고 말할 수 있음
=====================================================================================
(1) 표준오차
(2) Z값
(3) 신뢰구간
(4) 표본오차
(5) 표준오차(실제로 표본평균의 표준편차를 알기 어렵다 . 그 이유는 모집단에서 한 두번 조사를 실시하기 때문에....이러한 이유로 모집단의 표준편차()를 사용하는 방법)
(6) 표준오차(실제로 모집단의 표준편차()를 아는 것도 힘듬.... 때문에 표본의 표준편차(
)를 사용)
(1), (5), (6)을 비교
따라서 여기에서 Z의 값음
'내가 알아가는 도시 > Statistics' 카테고리의 다른 글
R통계-3 (0) | 2016.10.11 |
---|---|
R통계-2 (0) | 2016.09.28 |
R통계-1 (0) | 2016.09.15 |
사회과학 통계분석-3(작성중) (0) | 2016.03.09 |
사회과학과 통계분석 - 1 (0) | 2016.02.17 |