우리가 살아가는 도시

사회과학과 통계분석 - 1 본문

내가 알아가는 도시/Statistics

사회과학과 통계분석 - 1

세화주 2016. 2. 17. 13:15

1. 확률과 정규분포

 

1) 확률

- 확률이란, 어떤 사건이 발생할 상대적 가능성을 의미

- A라는 상황의 발생확률은 P(A)로 표시되며, 그 범위는 로 표시됨

 

2) 확률변수

- 확률변수란, 일정한 확률을 가지고 발생하는 사건에 수치를 부여하는 것

- 일반적으로 X로 표시

- 예를들어 동전을 던졌을 때 뒷면이 나오는 경우를 0, 앞면이 나오는 경우를 1이라고 한다면 앞면이 나오지 않는 경우와 앞면이 나오는 경우의 확률(P는 다음과 같다.

- 여기서 확률변수는 (X=0), (X=1)

 

3) 확률분포

- 확률분포란, 확률변수가 취할 수 있는 모든 값들과 그 값들이 발생할 확률을 나타낸 것

- 즉 위의 수식을 활용하여 동전 2개를 던졌을 때 앞면이 나올 확률분포는 다음과 같음

- 돈전을 2개 던졌을 때 앞면이 0번, 1번, 2번 나올 수 있으며, 각 확률변수 (X=0), (X=1), (X=2)의 확률(P)를 통한 본 사건의 확률분포는 다음과 같음

 

앞면의 수(X) = 확률변수 

확률(P) = 확률변수가 나타날 확률 

 0

 0.25

 1

 0.50

 2

 0.25

 

- 위의 표가 확률분포라고 할 수 있음

 

4) 확률분포의 종류

- 확률분포는 크게 이산확률분포와 연속확률분포로 나누어 볼 수 있음

 

5) 이산확률분포

- 동전이나 주사위의 경우처럼 변수가 취할 수 있는 값이 유한하거나 셀 수 있는 변수를 이산확률변수라고 함

- 이러한 이산확률변수의 확률분포를 이산확률분포(probability distribution)라고 함

- 즉 이상확률분포는 변수의 값이 몇 개로 한정되어 있는 경우로 변수가 취할 수 있는 값들과 그에 상응하는 확률을 나타낸 것

 

6) 연속확률분포

- 키, 체중, 속도 등과 같이 변수가 취할 수 있는 값이 무한하게 연속되어 있는 변수를 연속확률변수라 하며, 이러한 연속확률변수의 확률분포를 연속확률분포라고 함

- 연속확률분포가 이산확률분포와 다른 점은 확률변수가 취할 수 있는 값이 무한하게 연속적이며, 그러한 무한한 값에 대한 확률이 존재한다는 점

- 즉 이상확률분포의 경우는 확률변수가 취할 수 있는 두 값 사이에 확률변수가 휘할 수 없는 값이 존재하지만, 연속확률분포에서는 그러한 값들이 존재하지 않으며 확률변수의 각 값에 따른 확률이 존재

 

7) 확률분포의 평균

- 확률변수의 집중화 경향을 파악하기 위해 평균을 많이 사용

- 평균(mean)을 기대값(expected value), (mu, 그리스어 m자로 mean의 머리글자) 또는 E(X)(expected value)로 표기한다.

 

8) 확률분포의 분산

- 확률변수의 분산정도를 파악하기 위해 분산과 표준편차를 많이 사용

- 분산은 확률변수의 각 값에서 평균을 뺀 편차를 제곱한 것에 확률을 골합여 모두 더한 것

 

(분산이란 각 관찰값이 평균으로부터 떨어진 거리를 제곱한 것을 평균한 값이며, 평균으로부터 많이 떨어진 값, 즉 극한 값에 비중을 많이 줌으로써 분산형태를 보다 민감하게 나타낸다고 할 수 있다.

 

 

 

** 분산에 대해 조금 더 설명하면, 평균은 자료 전체의 특징을 하나의 수로 나타낸 대푯값으로 유용하지만, 극단적인 값을 포함된 경우에는 대푯값으로의 의미를 잃는다. 따라서 자료의 분포에 대한 특성을 알아보기 위하여 대푯값인 중심위치와 더불어 추가적인 정보, 즉 대푯값 주위에 흩어져 있는 정도를 측정하는 산포도가 필요하다. 그리고 산포도를 측정하는 방법은 편차, 분사, 표준편차 등이 있다.

 

** 변량들이 평균으로부터 얼마나 떨어져 있는가를 가늠하기 위해 각 변량에서 평균을 뺀 값을 편차라고 한다. 즉 (편차 = 변량 - 평균)인데 이 때 변량 전체의 편차가 얼마나 되는지를 파악하기 위하여 편차의 합을 구하면 항상 0이 된다.

예를 들어 2, 4, 6, 8, 10의 평균은 6이며 값 변량으로부터 평균인 6을 뺀 값을 모두 더하게 되면 편차의 합은 0이 된다.

 

** 그렇다면 분산은 왜 편차를 제곱해야 하는가에 대해 궁금증이 생기는데, 흩어진 정도를 측정하는 것은 자료가 평균에서 얼마나 멀리 떨어져 있는 것을 알기 위한 것으로 편차의 크기가 중요할 뿐 편차가 양수인가 음수인가는 중요하지 않다. 따라서 편차의 합이 0이 되는 문제를 해결하기 위하여 편차의 음의 부호를 없애는 방법이 필요한데 그 대표적 방법이 절댓값과 제곱이다. 그ㅓ나 보통 절댓값은 기호 사용의 불편함과 함께 식의 계산 또는 변형이 어려워 식이 가지는 성질을 찾아내기가 어렵게 때문에 사용하지 않으며, 제곱을 사용한다.

 

** 즉 분산은 편차의 제곱의 평균이다.

 

** 하지만 분산의 양의 제곱은인 표준편차도 필요하다. 그 이유는 변량의 단위와 산포도의 단위를 같게 하기 위한 것이다. 분산은 편차를 제곱하여 나타낸 값으로 계산 결과의 단위가 처음 변량들이 나타내는 단위의 제곱형태가 되어 처음 변량의 단위로 바꿔주기 위한 것이다. 편차를 제곱하여 분산을 구했으니, 제곱의 크기를 원래의 크기로 되돌리는 제곱근을 선택한 것이다. 이러한 이유로 평균과 표준편차는 단위를 나타내지만 분산은 단위를 나타내지 않는다.

 

- 표준편차는 분산을 제곱근한 값

 

 

9) 이산확률분포

- 이산확률분포에서 가장 많이 사용되며 대표적 분포인 이항분포는 베르누이 시행이라는 확률과정을 통해 유도

 

- 베르누이 시행은 아래의 3가지 조건을 만족

* 첫째,  각 시행의 결과는 성공과 실패 중 하나

* 둘째, 각 시행에서 성공확률 p는 일정하다. 또하 성공확률 p와 실패확률q를 합하면 1

* 셋째, 각 시행은 서로 독립적

 

- 베르누이의 경우 한 번의 시행에서 성공확률 또는 실패확률을 얻고자 하는 것이라면, 여러 번의 베르누이 시행을 통해 특정한 횟수의 성공이 나타날 확률을 알고 싶은 경우가 있는에 이를 이항 실험이라고 함

 

- 베르누이 시행에서의 평균, 표준편차, 분산

* 평균 : E(X)=p

* 표준편차 : pq의 제곱근

* 분산 : pq

 

- 총 시행 중 성공의 사건이 발생할 횟수 또는 실패의 사건이 발생할 횟수를 이항확률변수(X)라 하며, 이러한 이항확률변수의 확률분포를 이항확률분포 또는 이항분포라고 함

 

- 이항분포에서의 평균, 표준편차, 분산

* 평균 : E(X)=np

* 표준편차 : npq의 제곱근

* 분산 : npq

 

10) 연속확률분포

- 길이, 무게, 속도 등과 같이 변수가 취할 수 있는 값이 무한하게 현속되어 있는 변수를 연속확률변수라 하며, 이러한 연속확률변수의 확률분포를 연속확률분포라고 함

- 연속확룰변수는 이산확률변수와 달리 확률변수 X가 취할 수 있는 값을 일일이 계산할 수 없으므로 변수 값 각각에 대응하는 확률을 구하기보다는 일정한 구간의 변수 값들에 대한 확률을 구해야 함

- 즉, 확률변수 X가 일정 범위의 값을 취할 확률을 확률함수 f(X)가 나타내는 곡선 밑부분의 면적을 이용하여 구함

 

- 연속확룰변수의 경우 이산확률변수에서처럼 확률함수 f(X)가 확률변수 X에 대한 확률을 곧바로 나타내지 않고, 면적을 계산하여 확률변수 X의 확률을 나타내기 때문에, 연속확률변수에서의 확률함수를 확률밀도함수라고 부름

 

11) 정규분포에서의 확률계산

- 연속확률분포는 면적에 의해 그 크기를 나타낼 수 있는데,

- 예를들어 우리나라 30세 이상 성인의 키의 분포가 평균이 170cm이며 표준편차가 5cm라고 할 때 우리나라 성인 주이 키가 170cm에서 175cm사이일 확률은 우리나라 성이키의 분포 정규분포 그래프에서 그 사이의 면적을 구하면 됨

- 하지만, 이는 적분을 해야하고 고도의 수학적 지식이 필요하므로 정규분포의 확률계산을 간편하게 학 수 있도록 고안 된 것이 있는데 그것이 표준정규분포임

- 표준정규분포는 모든 정규분포를 평균 0, 표준편차 1이 되로록 표준화한 것을 의미하며, 표준정규분포에서 각 관찰값 X는 그 값이 그 분포의 평균으로부터 몇 배의 표준편차나 떨어져 있는가를 다음과 같이 정규분포 확률변수 z로 나타내기 때문에 표준정규분포를 z분포라고 함

 

** Z는 표준점수, X는 각 사례의 관찰값, mu는 모집단의 평균, 시그마는 모집단의 표준편차

 

** 만약 160 / 165 / 170 / 175 / 180이라면 여기서 평균은 170이고 표준편차는 5라는 것을 확인 이를 표준정규분포로 변환시키면

160은 (160-170)/5가 되어 -2가 된다.

즉 -2 / -1 / 0 / 1 / 2로 변환된다.

 

- 여기서 표준정규분포를 활용하여 확률을 계산할 수 있으며, Z분포표를 통해 1Z는 0.3413이고 2Z는 0.4772이라고 할 수 있음

 

- 그리고 정규분포는 좌우대칭이므로 +/- 1Z 사이의 넓이는 0.3413 * 2인 0.6826이라고 할 수 있음

 

'내가 알아가는 도시 > Statistics' 카테고리의 다른 글

R통계-3  (0) 2016.10.11
R통계-2  (0) 2016.09.28
R통계-1  (0) 2016.09.15
사회과학 통계분석-3(작성중)  (0) 2016.03.09
사회과학 통계분석 - 2  (0) 2016.02.22