Theory/Data Analysis

[통계 분석] 06 유의성 검정 / 통계 분석 프로세스

Orangetasteboy 2023. 9. 30. 01:03

유의 확률

  • p로 표기
  • 귀무가설을 지지하는 힘
  • p-value는 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적 통계치가 관측될 확률
  • 관찰된 데이터가 귀무가설과 양립하는 정도를 0~1사이의 수치로 표현한 것
  • p-value가 적을수록 그 정도가 약하다고 보며, 특정값(대개 0.05 또는 0.01)보다 작을 경우 귀무가설을 기각
  • 대립가설을 지지하는 검정통계치를 모을 확률로 귀무가설을 지지하는 정도로 해석

 

유의 수준

  • α로 표기
  • 통계적 가설검정에서 귀무가설의 기각 여부를 결정하는데 사용되는 기준이 되는 확률
  • 95% 신뢰도를 기준으로 한다면 0.05가 유의수준 값
  • 1종 오류를 범할 확률의 허용한계로 유의 수준과 유의 확률을 비교해서 귀무가설의 기각 여부를 결정
  • 표본을 토대로 내린 결론이 틀렸을 때 갑당할 수 있는 한계
  • 데이터 분석의 상황과 목적에 따라 자의적으로 정함.

 

유의성 검정

  • 검정 : 데이터 뒤에 숨어 있는 확률변수 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업
  • 검정 절차 : 유의 확률과 유의 수준을 비교해 결론을 내림.

 

많이 쓰는 통계 프로그램

통계 패키지 소프트 웨어

  • 어느 소프트웨어든 보편적 유의성 검정 가능
  • SPSS : 코딩을 몰라도 쓸 수 있는 GUI 방식, 사회과학 분야에서 많이 사용
  • SAS : 30여 개 제품을 선별 구성하는 방식, 연구용 무료 클라우드 방식 지원
  • MATLAB : 정밀하고 복잡한 과학기술 계산에 강점, 이공학 계열에서 많이 사용
  • E-Views : 시간의 흐름에 따르는 분석에 특화, 경제경영학에서 많이 사용

R, Python 등

  • 통계 분석도 가능하지만, 문자열이나 다양한 데이터를 광범위하게 처리하는 프로그램
  • 코딩 능력이 필요하며, 주로 복잡한 데이터 분석에 활용

EXCEL, KESS 등

  • 누구나 보편적으로 사용하는 엑셀 기반 통계 기능

 

가설 검정 단계

탐색적 데이터 분석

  1. 가설 수림
  2. 가설을 검증하기 위한 통계량 확보
  3. 유의 확률을 계산
  4. P값과 유의수준을 비교

 

데이터 유형과 분석법

  독립변수



양적변수 질적변수 양적변수
T검정
1개 또는 2개 그룹의 평균값을 검정
단순선형회귀분석
1개의 독립변수로부터 종속변수의 값을 예측
질적변수 ANOVA
3개 이상 그룹의 평균을 검정
다중선형회귀분석
2개 이상의 독립변수로부터 종속변수의 값을 예측
카이제곱검정
2개 수준의 관계성을 검정
로지스틱회귀분석
독립변수로부터 성공/실패 여부를 예측