Theory/Data Analysis
[통계 분석] 06 유의성 검정 / 통계 분석 프로세스
Orangetasteboy
2023. 9. 30. 01:03
유의 확률
- p로 표기
- 귀무가설을 지지하는 힘
- p-value는 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적 통계치가 관측될 확률
- 관찰된 데이터가 귀무가설과 양립하는 정도를 0~1사이의 수치로 표현한 것
- p-value가 적을수록 그 정도가 약하다고 보며, 특정값(대개 0.05 또는 0.01)보다 작을 경우 귀무가설을 기각
- 대립가설을 지지하는 검정통계치를 모을 확률로 귀무가설을 지지하는 정도로 해석
유의 수준
- α로 표기
- 통계적 가설검정에서 귀무가설의 기각 여부를 결정하는데 사용되는 기준이 되는 확률
- 95% 신뢰도를 기준으로 한다면 0.05가 유의수준 값
- 1종 오류를 범할 확률의 허용한계로 유의 수준과 유의 확률을 비교해서 귀무가설의 기각 여부를 결정
- 표본을 토대로 내린 결론이 틀렸을 때 갑당할 수 있는 한계
- 데이터 분석의 상황과 목적에 따라 자의적으로 정함.
유의성 검정
- 검정 : 데이터 뒤에 숨어 있는 확률변수 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업
- 검정 절차 : 유의 확률과 유의 수준을 비교해 결론을 내림.
많이 쓰는 통계 프로그램
통계 패키지 소프트 웨어
- 어느 소프트웨어든 보편적 유의성 검정 가능
- SPSS : 코딩을 몰라도 쓸 수 있는 GUI 방식, 사회과학 분야에서 많이 사용
- SAS : 30여 개 제품을 선별 구성하는 방식, 연구용 무료 클라우드 방식 지원
- MATLAB : 정밀하고 복잡한 과학기술 계산에 강점, 이공학 계열에서 많이 사용
- E-Views : 시간의 흐름에 따르는 분석에 특화, 경제경영학에서 많이 사용
R, Python 등
- 통계 분석도 가능하지만, 문자열이나 다양한 데이터를 광범위하게 처리하는 프로그램
- 코딩 능력이 필요하며, 주로 복잡한 데이터 분석에 활용
EXCEL, KESS 등
- 누구나 보편적으로 사용하는 엑셀 기반 통계 기능
가설 검정 단계
탐색적 데이터 분석
- 가설 수림
- 가설을 검증하기 위한 통계량 확보
- 유의 확률을 계산
- P값과 유의수준을 비교
데이터 유형과 분석법
독립변수 | |||
종 속 변 수 |
양적변수 | 질적변수 | 양적변수 |
T검정 1개 또는 2개 그룹의 평균값을 검정 |
단순선형회귀분석 1개의 독립변수로부터 종속변수의 값을 예측 |
||
질적변수 | ANOVA 3개 이상 그룹의 평균을 검정 |
다중선형회귀분석 2개 이상의 독립변수로부터 종속변수의 값을 예측 |
|
카이제곱검정 2개 수준의 관계성을 검정 |
로지스틱회귀분석 독립변수로부터 성공/실패 여부를 예측 |