우리가 살아가는 도시

R통계-3 본문

내가 알아가는 도시/Statistics

R통계-3

세화주 2016. 10. 11. 09:46

1. 편차

 표본평균을 중심 척도로 하여 나타낸 차이

 편차 = 자료값 - 표본평균

 편차의 합은 언제나 0이기 대문에 데이터의 퍼짐정도를 알 수가 없음

 

 

 

2. 표본분산

 R code = var( )

 편차의 상쇄를 막기 위해 사용

 각 편차를 제곱하여 합한 것을 (자료의 개수-1)로 나눈 값

 

 

 

 

3. 표본표준편차

 R code = sd( )

 편차의 상쇄를 막기 위해 사용

 각 편차를 제곱하여 합한 것을 (자료의 개수-1)로 나눈 값의 제곱근

 

 

 

4. 확률표본

 크기가 n인 모든 묶음들이 똑같은 확률

 

 

을 갖는다면, N개의 서로다른 객체를 가지고 있는 한 모집단으로부터 뽑혀진 크기 n의 표본을 확률표본

 

 

5. 확률변수

 확률변수 X란 실험의 결과들에 수치를 대응시키는 것을 의미

 

 

6. 이산확률변수

 확률변수가 유한값을 혹은 자연수와 일대일대응이 되는 무한히 많은 값을 가질 때

 예를 들어 돈전을 세번 던지는 실험에서 앞면이 나오는 횟수,

 

 

7. 연속확률변수

 확률변수가 어떤 연속적인 양의 측도로 표현이 되고 모든 값들이 어떤 구간에 있을 때

 예를 들어, 성인 남자의 키, 젓소에서 나오는 하루 우유의 양, 심부전증이 있는 환자의 생존시간

 

 

8. 이산확률변수의 확률분포

 이산확률변수 X의 확률분포는 X의 서로 다른 값들과 그에 대응하는 확률 값들로 표현

 

X값 

확률 f(x) 

X1

f(X1)

X2

f(X2)

Xn

f(Xn)

합계

1

 

 

 

 단, 다음과 같은 조건을 만족한다.

 

 1) X의 모든 Xi값에 대해 f(Xi)는 0보다 크거나 같다

 2)

 

 

9. 확률변수의 기대값 

 

 

 

10. 확률변수의 분산

 

 

 

11. 확률변수의 표준편차

 

 

12. 이산확률분포와 이항분포

 이산확률분포는 일반적인 분포와 이항분포로 나눌 수 있음

 이항분포는 독립시행을 여러번 한 상태에서만 쓸 수 있음

 

 

13. 이항분포

 

 

14. 이항분포의 평균

 

 

15. 이항분포의 분산

 

 

16. 이항분포의 표준편차

 

 

17. 기각역, 유의수준, P-value

 기각역 : 주장을 매우 지지하는 영역

 유의수준 : 귀무가설이 참일 때 이를 기각하는 확률을 의미, 대부분 0.01, 0.05, 0.10을 사용하며 숫자가 클 수록 귀무가설을 쉽게 기각

 예를 들어, 유의수준이 0.05라는 것은 실제로 유의차이가 없는데 유의차가 있다고 결론을 내릴 수 있는 위험율이 5%라는 것을 의미

 P-value : 귀무가설이 진실이라고 가정할 때, 샘플 데이터의 통계량(예를 들어 평균)이 최소한의 극단적일 만큼의 효과가 구해지는 확률