확률 분포
- 확률 분포란 모집단을 수학적으로 표현한 것
- 특정 확률 변수가 일어날 확률에 대한 정보 제공
- 특정 확률 변수의 확룰 분포를 알고 있다면 특정 사건이 일어날 확률을 계산(예측)할 수 있기 때문에 유용
확률 법칙
- 한 사건의 확률은 0과 1사이의 수이다.
- 여사건 법칙 : 어떤 사건이 일어날 확률은 '1 - 그 사건이 일어나지 않을 확률'이다.
- 덧셈 법칙 : 배반 사건들의 전체 확률은 각 확률을 더해서 구한다.
- 곱셈 법칙 : 일련의 독립 사건들이 일어날 전체 확률은 각 확률을 곱해서 구한다.
데이터의 부트스트랩 (Bootstrap)
- 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정
- 부트스트랩 분포를 이용해 추정값들의 불확실성 수치화 가능
- 강력한 가정 없이 확률 이론을 이용하지 않고서 추정값의 불확실성을 평가하는 직관적이고 컴퓨터 집약적인 방법
표집 분포 (Sampling Distribution)
- 데이터의 반복되는 표본에서 도출한 추정값의 변동성을 나타냄.
- 재표본 추출을 1,000번 반복하면 평균값이 1,000개가 나오는데 그 분포에 대한 히스토그램을 보면 원래 표본의 평균 근처에 부트스트랩 추정값들이 퍼져 있음을 알 수 있음.
대수의 법칙
- 표본의 크기가 커짐에 따라 표본 평균은 확률적으로 모집단의 실제 평균값에 수렴
- 표본으로 모집단 예측 가능
중심 극한 정리 (Central Limit Theorem)
- 무한 모집단에서 무작위로 추출된 확률 변수 X가 독립적으로 동일한 분포에 따라 E(X)=μ, V(X)=σ^2인 경우 표본의 크기(n)가 커짐에 따라 표본 평균은 근사적으로 평균, 분산의 정규 분포에 따름.
- 표본의 크기가 중가함에 따라 원래 데이터 분포 모양이 어떠하든 상관없이 표본 평균들의 분포가 정규분포의 형태로 다가가는 경항을 의미
- 표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 확률적 근거 제공
- 모집단 분포에 상관없이 큰 표본들의 표본평균의 분포가 정규분포로 수렴한다는 점을 이용하여, Z값을 구해 확률값을 구할 수 있음.
- 수학적 확률 판단(추정) 가능
무작위 추출
- 전수 조사가 아닌 표본 조사에서는 표본이 모집단을 대표하도록 구성하는 것이 중요
- ex) 단순랜덤 추출, 계통 추출, 집락 추출, 층화 추출, ...
독립 변수
- 영향을 주는 변수
- 가설의 원인이 되는 변수
- 종속변수에 영향을 미치는 선행조건
종속변수
가설의 결과가 되는 변수로서 자극에 대한 반응이나 결과를 나타내는 변수
무작위 통제 실험 (A/B 테스트) 방법
- 인과관계를 밝히기 위해선 무작위 통제 실험을 실시
- 표본이 모집단을 대표하도록 조사 대상자들을 선정 (무작위 추출 등)
- 조사 대상자들을 실험군 혹은 대조군 중 하나의 집단으로 무작위로 임의 배정
- 실험군에는 알아보고자 하는 독립변인 하나만을 조작하고 나머지 모든 조건은 대조군과 일치시킴.
- 참가자를 각 집단에 무작위 임의 배정하여 독립면수 외 다른 변수의 영향이나 기타 편향 방지
인과 관계 조사 설계
내적 타당성과 외적 타당성을 만족하도록 설계하는 것이 중요
내적 타당성 | 외적 타당성 | |
검토 대상 | 실험 결과가 정말 실험 처치(조작된 독립변인) 때문에 일어난 것이라고 볼 수 있는가? 인과관계를 얼마나 확실할 수 있는가? |
실험 결과를 다른 대상과 상황에게 어느정도 일반화 시킬 수 있는가? |
통제 방법 | 실험 처치 이외 모든 변수는 실험군 & 대조군에 동일하도록 만든다. | 조사 대상을 무작위/확률적으로 추출하여 대표성을 높인다. |
네이만 피어슨 추론 방식
- 가설 수립
- 표본이 유의할 확률 계산
- 가설의 기각/채택
귀무가설
- 다른 말로 영가설, 무효화 가설 등으로 부름.
- 우리가 알고자 하는 모집단의 특성에 대한 잠정적인 주장
- 보편적으로 알려진 기존의 사실
- A와 B는 관계가 없다, A와 B는 차이가 없다, A는 B에 영향을 주지 않는다 등
대립가설
- 귀무 가설이 기각되면 대안으로 채택되는 가설
- 이 데이터 분석이 의미 있는 새로운 사실을 발견해냈다는 주장
- A와 B는 관계가 있다, A와 B는 차이가 있다, A는 B에 영향을 준다 등
'Theory > Data Analysis' 카테고리의 다른 글
[Python 데이터 분석] 01 데이터 불러오기 (0) | 2023.11.02 |
---|---|
[통계 분석] 06 유의성 검정 / 통계 분석 프로세스 (0) | 2023.09.30 |
[통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수 (0) | 2023.09.29 |
[통계 분석] 03 연속형(양적) 데이터 요약 (0) | 2023.09.29 |
[통계 분석] 02 데이터 확보 / 데이터 요약의 이해 (0) | 2023.09.29 |
댓글