본문 바로가기
Theory/Data Analysis

[통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계

by Orangetasteboy 2023. 9. 30.

확률 분포

  • 확률 분포란 모집단을 수학적으로 표현한 것
  • 특정 확률 변수가 일어날 확률에 대한 정보 제공
  • 특정 확률 변수의 확룰 분포를 알고 있다면 특정 사건이 일어날 확률을 계산(예측)할 수 있기 때문에 유용

 

확률 법칙

  1. 한 사건의 확률은 0과 1사이의 수이다.
  2. 여사건 법칙 : 어떤 사건이 일어날 확률은 '1 - 그 사건이 일어나지 않을 확률'이다.
  3. 덧셈 법칙 : 배반 사건들의 전체 확률은 각 확률을 더해서 구한다.
  4. 곱셈 법칙 : 일련의 독립 사건들이 일어날 전체 확률은 각 확률을 곱해서 구한다.

 

데이터의 부트스트랩 (Bootstrap)

  • 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정
  • 부트스트랩 분포를 이용해 추정값들의 불확실성 수치화 가능
  • 강력한 가정 없이 확률 이론을 이용하지 않고서 추정값의 불확실성을 평가하는 직관적이고 컴퓨터 집약적인 방법

 

표집 분포 (Sampling Distribution)

  • 데이터의 반복되는 표본에서 도출한 추정값의 변동성을 나타냄.
  • 재표본 추출을 1,000번 반복하면 평균값이 1,000개가 나오는데 그 분포에 대한 히스토그램을 보면 원래 표본의 평균 근처에 부트스트랩 추정값들이 퍼져 있음을 알 수 있음.

 

대수의 법칙

  • 표본의 크기가 커짐에 따라 표본 평균은 확률적으로 모집단의 실제 평균값에 수렴
  • 표본으로 모집단 예측 가능

 

중심 극한 정리 (Central Limit Theorem)

  • 무한 모집단에서 무작위로 추출된 확률 변수 X가 독립적으로 동일한 분포에 따라 E(X)=μ, V(X)=σ^2인 경우 표본의 크기(n)가 커짐에 따라 표본 평균은 근사적으로 평균, 분산의 정규 분포에 따름.
  • 표본의 크기가 중가함에 따라 원래 데이터 분포 모양이 어떠하든 상관없이 표본 평균들의 분포가 정규분포의 형태로 다가가는 경항을 의미
  • 표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 확률적 근거 제공
  • 모집단 분포에 상관없이 큰 표본들의 표본평균의 분포가 정규분포로 수렴한다는 점을 이용하여, Z값을 구해 확률값을 구할 수 있음.
  • 수학적 확률 판단(추정) 가능

 

무작위 추출

  • 전수 조사가 아닌 표본 조사에서는 표본이 모집단을 대표하도록 구성하는 것이 중요
  • ex) 단순랜덤 추출, 계통 추출, 집락 추출, 층화 추출, ...

 

독립 변수

  • 영향을 주는 변수
  • 가설의 원인이 되는 변수
  • 종속변수에 영향을 미치는 선행조건

 

종속변수

가설의 결과가 되는 변수로서 자극에 대한 반응이나 결과를 나타내는 변수

 

무작위 통제 실험 (A/B 테스트) 방법

  • 인과관계를 밝히기 위해선 무작위 통제 실험을 실시
  1. 표본이 모집단을 대표하도록 조사 대상자들을 선정 (무작위 추출 등)
  2. 조사 대상자들을 실험군 혹은 대조군 중 하나의 집단으로 무작위로 임의 배정
  3. 실험군에는 알아보고자 하는 독립변인 하나만을 조작하고 나머지 모든 조건은 대조군과 일치시킴.
  4. 참가자를 각 집단에 무작위 임의 배정하여 독립면수 외 다른 변수의 영향이나 기타 편향 방지

 

인과 관계 조사 설계

내적 타당성과 외적 타당성을 만족하도록 설계하는 것이 중요

  내적 타당성 외적 타당성
검토 대상 실험 결과가 정말 실험 처치(조작된 독립변인) 때문에 일어난 것이라고 볼 수 있는가?
인과관계를 얼마나 확실할 수 있는가?
실험 결과를 다른 대상과 상황에게 어느정도 일반화 시킬 수 있는가?
통제 방법 실험 처치 이외 모든 변수는 실험군 & 대조군에 동일하도록 만든다. 조사 대상을 무작위/확률적으로 추출하여 대표성을 높인다.

 

네이만 피어슨 추론 방식

  1. 가설 수립
  2. 표본이 유의할 확률 계산
  3. 가설의 기각/채택

 

귀무가설

  • 다른 말로 영가설, 무효화 가설 등으로 부름.
  • 우리가 알고자 하는 모집단의 특성에 대한 잠정적인 주장
  • 보편적으로 알려진 기존의 사실
  • A와 B는 관계가 없다, A와 B는 차이가 없다, A는 B에 영향을 주지 않는다 등

 

대립가설

  • 귀무 가설이 기각되면 대안으로 채택되는 가설
  • 이 데이터 분석이 의미 있는 새로운 사실을 발견해냈다는 주장
  • A와 B는 관계가 있다, A와 B는 차이가 있다, A는 B에 영향을 준다 등

댓글