일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- R통계
- 문화
- nofilter
- #협력적계획이론 #패치힐리 #도시계획이론
- 일본
- FUJIx100f
- R프로그램
- 얀겔
- 사북 석탄
- 지속가능한개발
- 지구정치학담론
- 트랜지션타운
- 건담프라모델
- 통계
- 오사카생활
- 산업연관표
- 산업연관분석
- 오타루
- python
- Greeen
- 얀겔의 위대한 실험
- x100f
- 일본연구
- 정선 가볼만한 곳
- 타지리초
- 링크타운
- 짱구는 못말려 15기
- python 기초
- FUJIJILM
- 다시장인인다
- Today
- Total
우리가 살아가는 도시
사회과학 통계분석 - 2 본문
2. 표본과 모집단
1) 오차(error term)
■ 모집단의 휘귀식과 개별값의 차이
2) 잔차(Residula)
■ 표본 회귀식 값과 개별값과의 차이
3) 표준편차(Standard deviation)
■ 평균에서 개별값과의 차이의 평균의 제곱근
4) 표준오차(Standard error)(표본평균의 표준편차)
■ 각 표본들의 평균이 전체 평균과 얼마나 떨어져 있는가를 나타냄
■ 평균의 정확도를 추정할 수 있다
5) 표본오차(Sampling error)
■ Sampling에 의한 오차
■ 표본추출 과정에 어쩔수 없이 발생되는 통계적 오차
■ 모수(참값)아 표본통계량(추정값) 사이의 불일치
■ 모집단의 일부를 표본추출하여 모수를 통계적으로 추정 함으로 인하여 발생
■ 모수와 추정치와의 오차
6) 비표본오차
■ 표본의 선택 추출에서 자연적으로 발생하는 오차가 아니라, 표본의 성격을 잘못 관찰, 측정, 기록하여 발생하는 오차
7) 모집단과 표본의 평균과 표준편차 표기방법
■ 모집단의 평균 =
■ 모집단의 표준편차 =
■ 표본의 평균 =
■ 표본의 표준편차 =
8) 표본평균들 분포에서의 확률계산
■ 표본평균들의 분포는 정규분포를 가정하고, 이 정규분포를 표준정규분포로 전환시킴으로써 확률을 계산할 수 있음
■ 표본평균들의 분포를 표준정규분포로 전환하기 위해서는 각 표본의 평균들이 표본평균들의 평균으로부터 몇 표준오차 떨어져 있는가를 계산해야 하는데 이때 Z값을 구하는 공식을 이용
■ 표준오차 구하는 방법
■ Z값을 구하는 방법
■ 예를들어 우리나라 노동자들의 평균 연봉을 조사히기 위해 100명씩 표본을 추출하는 것을 무한히 반복하여 그들의 평균을 구한 후, 그 표본평균들의 평균과 표준오차(표본평균의 표준편차)를 구했더니 각각 2000만원과 150만원이었다. 이 때 한 번 표본추출을 했을 때 그 표본의 평균이 2200만원 이상일 확률은 얼마인가를 구해보자
- 표본의 평균(2200)이 표본평균들의 평균(2000)으로부터 몇 Z떨어져 있는가를 공식을 이용해서 구하면
(2200-2000)/150 = 1.33
- Z가 1.33일 때 확률은 0.4082이며
- Z=1.33인 부분의 확률은 0.5-0.4082 = 0.0918로
- 9.18%를 도출해 낼 수 있다.
9) 신뢰구간
■ 표본평균에 의해 모집단의 평균을 추정하고자 할 때 신뢰구간을 사용
■ 모집단으로부터 표본을 추추라는 경우 항상 표본오차가 존재하기 때문에, 즉 아무리 표본추출을 주의 깊게 하여도 모집단을 완전히 대변할 수 있는 표본을 추출할 수 없기 때문에 표본평균에 의해 모집단의 평균을 정확하게 예측하기가 어렵고 일정한 신뢰구간을 표시하여 모집단을 예측할 수 밖에 없음
■ 예를 들어 한 학교 전체 학생 1500명에 대해 평균 IQ점수를 조사해 보고자 한다. 이 경우 모집단 전체 학생의 IQ를 조사하려면 시간과 비용이 많이 들기 때문에 이 중에서 36명을 선발하여 IQ점수의 평균을 구한 후, 이를 통해 모집단 1500명에 대한 IQ점수를 추정하고자 한다. 36명에 대해 IQ테스트를 실시하여 평균을 구하니 103점이었다. 그러나 103점은 표본의 평균이기 때문에 이 점수가 모집단의 평균과 정확히 일치한다고 할 수는 없다.
■ 반면에 우리는 모집단으로부터 추출한 모든 표본들의 평균들 중 68.26%가 모집단의 평균으로부터 +/-1표준편차 안에 놓이게 된다는 것을 알 수 있었다. 즉 +/-1표준편차 범위 내에 모집단의 평균이 놓일 확률이 68.26%라는 것이다.
만약에 표준오차가 3이라면
68.26%에서는 표본오차가 (+/-3)
95%에서는 표본오차가 (+/-5.88)
68.26%신뢰구간 = 103 - (1*3) ~ 103 + (1*3) = 100 ~ 106
이 말인 즉슨, 100~106 사이에 모집단의 평균이 놓일 확률이 68.26%라는 것을 의미하고
반대로 해석하면 31.74%의 오류를 범할 수 있다는 것을 의미함
95%의 신뢰구간 = 103 - (1.96*3) ~ 103 + (1.96*3) = 97.12 ~ 108.88
이 말인 즉슨, 97.12 ~ 108.88 사이에 모집단의 평균이 놓일 확률이 95%라는 것을 의미하고
반대로 해석하면 5%의 오류를 범할 수 있다는 것을 의미함
■ 신뢰구간
- 99% 신뢰구간: (99%일 때 Z값은 2.58)
- 95% 신뢰구간 : (95%일 때 Z값은 1.96)
- 68.26% 신뢰구간: (68.26%일 때 Z값은 1)
- 표준오차 = 모집단의 표준편차 / 표본수의 제곱근
■ 예를들어 어느 병원에서 1년동안 암으로 진단을 받은 환자가 1000명이었다. 이들 환자가 암으로 진단받은 후 평균 며칠 후에 죽게 되는가를 조사하고자 한다. 이 경우 100명의 환자를 조사하여 그 결과에 의해 모집단의 환자들이 암 진단 후 평균적으로 며칠 생존하는가를 추정하고자 한다. 표본의 평균 생존일수가 200일이었고, 모집단의 표준편차가 30일이었을 때 98%의 신뢰수준에서 모집단의 평균의 신뢰구간을 구하여라
** 여기서 모집단의 표준편차를 30일로 주어지고 있지만 사실 알기 힘들며, 이로인해 T분포를 사용한다.
- 98%에서의 신뢰구간에서의 Z값을 구하면
- 우선 0.98 /2 = 0.49이며
- 0.49일 때 Z값은 2.33 (Z=2.33)
- 표준오차는 모집단의 표준편차 / 표본수의 제곱근
- 즉 30 / 제곱근100 = 3
- 98%의 신뢰구간 =
- 200 +/- 2.33*3
- 200 +/- 6.99
- 193.01~206.99
■ 즉 표본조사를 통해 98%의 신뢰수준을 가지고 모집단의 평균 생존기간이 193.01~206.99일이라고 말할 수 있음
=====================================================================================
(1) 표준오차
(2) Z값
(3) 신뢰구간
(4) 표본오차
(5) 표준오차(실제로 표본평균의 표준편차를 알기 어렵다 . 그 이유는 모집단에서 한 두번 조사를 실시하기 때문에....이러한 이유로 모집단의 표준편차()를 사용하는 방법)
(6) 표준오차(실제로 모집단의 표준편차()를 아는 것도 힘듬.... 때문에 표본의 표준편차()를 사용)
(1), (5), (6)을 비교
따라서 여기에서 Z의 값음
'내가 알아가는 도시 > Statistics' 카테고리의 다른 글
R통계-3 (0) | 2016.10.11 |
---|---|
R통계-2 (0) | 2016.09.28 |
R통계-1 (0) | 2016.09.15 |
사회과학 통계분석-3(작성중) (0) | 2016.03.09 |
사회과학과 통계분석 - 1 (0) | 2016.02.17 |