우리가 살아가는 도시

사회과학 통계분석-3(작성중) 본문

내가 알아가는 도시/Statistics

사회과학 통계분석-3(작성중)

세화주 2016. 3. 9. 09:11

T검증

 

1. T검증을 사용하기 위한 주요 요건

1) 분석하고자 하는 자료의 독립변수는 비연속적 변수이며, 종속변수는 연속적 변수여야 한다.

- 독립변수는 성별, 종교 유무 등과 같이 2개 집단이어야 하며, 3개 이상의 집단이어서는 안된다.

2) 두 집단이 추출된 모집단의 분포가 모두 정규분포를 가정한다.

3) 모집단의 분산은 동일해야 한다.

- 등분산성을 가져야 한다.

 

 

2. T검증의 기본원리

 

1) 평균차이 분포

- 예를들어 어느 연구자가 30세 이상의 성인을 대상으로 결혼한 사람과 결혼하지 않고 독신으로 산 사람 간에 생의 만족도의 차이가 있는지를 검사한다고 가정해보자.(무수히 많은 30세 이상의 결혼한 사람과 독신인 사람이 있다고 가정)

 

-  두 모집단으로부터 50명씩 표본추출을 하는 것을 100번하여 두 집단 간의 차이를 구한 것을 표로 나타내면 다음과 같다.

 

평균차이

(결혼한 사람의 만족도 평균과

결혼하지 않은 사람의 만족도 평균의 차이)

빈도수 

빈도수 * 평균차이 

 6

 1

 6

 5

 3

 15

 4

 5

 20

 3

 8

 24

 2

 11

 22

 1

 14

 14

 0

 16

 0

 -1

 14

 -14

 -2

 10

 -20

 -3

 9

 -27

 -4

 5

 -20

 -5

 3

 -15

 -6

 1

 -6

 계

 100번

 -1

 

- 이렇게 두 모집단으로부터 50명씩 표본추출을 하는 것을 100번하여 두 집단 간의 차이를 구한 것을 표로 나타내보았으며, 만약 두 집단 간에 차이가 없다는 영가설이 사실이라면 두 집단의 평균차이 분포는 좌우대칭인 정규분포에 가깝고 평균은 0에 가까울 것이가.

 

- 왜냐하면 두 집단 간의 차이는 표본추출에 의한 오류에 따른 것이기 때문

 

- 즉 수없이 많은 표본추출을 하였을 경우 양과 음의 분포는 서로 상쇄되어 거의 0이 될 것이기 때문이다.

 

- 표의 평균은 -0.01(-1/100)으로 0에 가까우나 약간의 차이가 있다고 할 수 있다.

 

 

 

 

2) 평균차이 분포에서의 가설검증

- Z분포에서의 가설검증

 

앞의 Z공식을 다시 한번 복습하면

 

(관찰값이 평균으로 부터 얼마나 떨어져 있는가에 대한 Z의 값)

(예를들어 340점이 평균 280점으로부터 몇 Z떨어져 있는가? - 표준편차는 40이라고 가정하였을 때)

 

 

(한번 표본을 추출할 경우의 평균이 무수히 많은 표본을 추출하였을 때의 평균으로 부터 얼마나 떨어져 있는가에 대한 Z의 값)

(예를들어 100명씩 추출하는 것을 무한반복했더니 그 표본의 평균이 2000이고 표본오차가 150일 때 이때 표본의 평균이 2200이상일 경우의 확률은?)

----> Z값을 구하여 확률을 계산할 수 있음

 

 

(평균차이 분포에서의 Z값)

 

 

실제로 두 표본의 평균차이에서 두 표본평균차이들의 평균을 빼야 하는데, 두 표본평균차이들의 평균의 경우 그 횟수를 늘리면 늘릴 수록 0에 가깝기 때문에 무시할 수 있으므로, 두 표본의 평균차이만 남게 된다.

 

- T분포에서의 가설검증

 

- 수치를 이용한 가설검증

 

3. 동일표본 평균차이 검증

1) 우리는 때때로 동일한 표본에 대해 다른 시점에서 조사해서 그 결과를 비교해 보아야 할 경우가 있다.

 

2) 예를 들면 폭력을 긍정적으로 다룬 영화가 아동들의 폭력에 대한 태도에 영향을 미치는가를 분석하기 위해 폭력 영화를 보기 전에 아동들의 폭력에 대한 태도를 조사하고, 폭력 영화를 본 후에 폭력에 대한 태도를 다시 조사해서 두 조사결과의 차이가 나는지를 검토해 보는 경우

 

3) 동일 표본을 반복 조사해서 그 차이를 검증하는 경우 t값을 구하기 위한 공식은 다음과 같다.

 

 

4.

'내가 알아가는 도시 > Statistics' 카테고리의 다른 글

R통계-3  (0) 2016.10.11
R통계-2  (0) 2016.09.28
R통계-1  (0) 2016.09.15
사회과학 통계분석 - 2  (0) 2016.02.22
사회과학과 통계분석 - 1  (0) 2016.02.17