Theory/Data Analysis
[통계 분석] 03 연속형(양적) 데이터 요약
Orangetasteboy
2023. 9. 29. 18:45
중심경향치
- 자료의 중심을 나타내는 숫자
- 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표
- 대표적인 중심 경향치로는 평균값, 중앙값, 최빈값 등이 있음.
중심 경향치 | 설명 |
평균값 (Average) | 자료의 합을 자료 개수로 나눈 값 평균은 극단적 값의 영향을 잘 받게 됨 |
중앙값 (Median) | 자료를 크기 순으로 정렬했을 때 정 가운데 있는 값 자료의 상위 50%와 하위 50%를 가르는 지점 |
최빈값 (Mode) | 가장 빈번하게 관찰, 측정되는 값 |
산포도
데이터가 대푯값을 중심으로 얼마나 흩어져 있는지를 나타내는 것
산포도 종류 | 설명 |
범위 (Range) | 자료 중 가장 큰 값과 가장 작은 값의 차이를 나타낸 값 |
백분위수 (Percentile) | 크기가 있는 값들로 이뤄진 자료를 순서대로 나열했을 때 백분율로 나타낸 특정 위치의 값을 이르는 용어 |
시분위수 범위 (IOR) | 전체 자료의 25%에 위치하는 값과 75%에 위치하는 값의 사이 |
분산 (Variance) | 평균을 중심으로 자료의 흩어진 정도가 어느 정도인지를 나타낸 값 |
표준편차 (Standard Deviation) | 분산의 제곱근을 취한 값 |
경험 법칙
대칭적인 흙더미 모양에 가까운 데이터 집합인 경우
- 평균에서 표준편차 한 배 이내에 약 68%의 데이터가 들어 있음.
- 표준편차의 두 배 이내에는 95%의 데이터가 들어 있음.
표준편차는 확률적으로 일반적/특별함을 구별하는 기준
- 표준편차 ±1배 범위 안의 데이터 = 일반적인 데이터
- 데이터가 정규분표에 가깝다고 하면 ±1배 범위 내에 70%의 데이터가 들어감.(확률 68.27%)
- 표준편차 ±2배 범위 밖의 데이터 = 특별한 데이터
- 좌우 양쪽을 합쳤을 때 영역이 5% 이내임.(영역 확률 95.45%)
산점도 (Scatterplot)
- 서로 다른 두 척도 비교 가능
- 각 척도는 수평 축과 수직 축 상의 위치를 나타냄.
- 산포도는 2가지 변수의 관계를 관찰할 때 유용 (상관 분석 등)
상관 관계 / 상관 계수
- 두 양적 변수 간의 관계를 요약할 때 활용
- 상관관계 : 한 변수가 증감할 때, 다른 변수가 얼마나 증감하는지를 나타내는 관계
- 상관계수 : 상관관계를 -1 ~ 1 사이의 값으로 수치화한 것
- 상관계수가 양수이면 한 변수가 증가할 때, 다른 변수도 증가하는 것을 의미 (양의 상관관계)
- 상관계수가 음수이면 한 변수가 증가할 때, 다른 변수는 감소하는 것을 의미 (음의 상관관계)
- 상관계수가 0이면 두 변수 사이에는 관계가 없다는 것을 의미
피어슨 상관계수 / 스피어만 순위 상관계수
- 상관계수에는 대표적으로 피어슨 상관계수, 스피어만 순위 상관계수가 있음.
- 피어슨 상관 계수 : 두 변수가 모두 연속형 자료일 때 사용하는 상관 계수, 두 변수가 모두 정규형을 따른다는 가정 필요
- 스피어만 순위 상관계수 : 두 연속형 변수의 분포가 정규성을 벗어나거나 두 변수가 순서형 변수인 경우 사용하는 상관계수
피어슨 상관 계수 | 스피어만 순위 상관계수 | |
사용하는 변수 종류 | 연속형 변수와 연속형 변수 | 순서형 변수와 순서형 변수 |
모수적 방법 vs 비모수적 방법 | 모수적 방법 | 비모수적 방법 |
결과값의 범위 | -1 이상 1 이하 | -1 이상 1 이하 |
- 모수적 방법 : 모수를 특정 분포로 가정하여 접근하는 방법
- 비모수적 방법 : 모수를 특정 분포로 가정하지 않고 접근하는 방법, 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용
상자수염그림 (Boxplot)
- 연속형 데이터를 다섯 숫자 요약을 이용하여 시각화한 그래프
- 분포의 중심, 분산, 치우침, 이상치, 대칭성 등을 한눈에 파악하기 용이
- 다섯 숫자 요약 : 최솟값, 제 1사분위 (Q1), 중앙값, 제 3사분위 (Q3), 최댓값
- 사분위 범위 (Interquartile Range, IQR) = Q3 - Q1
- 일반적으로 Q1과 Q3로부터 사분위 범위의 1.5배 밖에 있는 값을 이상치로 판별하고 점으로 표시
히트맵 (Heatmap)
- 두 양적 변수의 상관관계, 상관계수를 시각화하는데 유용한 그래프
- 여떤 변수들의 상관계수가 큰지, 또 그 정도가 얼마인지 등 다양한 정보를 한눈에 파악 가능
- 다중공선성에 대한 정보도 제공