Theory/Data Analysis

[통계 분석] 03 연속형(양적) 데이터 요약

Orangetasteboy 2023. 9. 29. 18:45

중심경향치

  • 자료의 중심을 나타내는 숫자
  • 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표
  • 대표적인 중심 경향치로는 평균값, 중앙값, 최빈값 등이 있음.

 

중심 경향치 설명
평균값 (Average) 자료의 합을 자료 개수로 나눈 값
평균은 극단적 값의 영향을 잘 받게 됨
중앙값 (Median) 자료를 크기 순으로 정렬했을 때 정 가운데 있는 값
자료의 상위 50%와 하위 50%를 가르는 지점
최빈값 (Mode) 가장 빈번하게 관찰, 측정되는 값

 

산포도

데이터가 대푯값을 중심으로 얼마나 흩어져 있는지를 나타내는 것

 

산포도 종류 설명
범위 (Range) 자료 중 가장 큰 값과 가장 작은 값의 차이를 나타낸 값
백분위수 (Percentile) 크기가 있는 값들로 이뤄진 자료를 순서대로 나열했을 때 백분율로 나타낸 특정 위치의 값을 이르는 용어
시분위수 범위 (IOR) 전체 자료의 25%에 위치하는 값과 75%에 위치하는 값의 사이
분산 (Variance) 평균을 중심으로 자료의 흩어진 정도가 어느 정도인지를 나타낸 값
표준편차 (Standard Deviation) 분산의 제곱근을 취한 값

 

경험 법칙

대칭적인 흙더미 모양에 가까운 데이터 집합인 경우

  1. 평균에서 표준편차 한 배 이내에 약 68%의 데이터가 들어 있음.
  2. 표준편차의 두 배 이내에는 95%의 데이터가 들어 있음.

 

표준편차는 확률적으로 일반적/특별함을 구별하는 기준

  • 표준편차 ±1배 범위 안의 데이터 = 일반적인 데이터
  • 데이터가 정규분표에 가깝다고 하면 ±1배 범위 내에 70%의 데이터가 들어감.(확률 68.27%)
  • 표준편차 ±2배 범위 밖의 데이터 = 특별한 데이터
  • 좌우 양쪽을 합쳤을 때 영역이 5% 이내임.(영역 확률 95.45%)

 

산점도 (Scatterplot)

  • 서로 다른 두 척도 비교 가능
  • 각 척도는 수평 축과 수직 축 상의 위치를 나타냄.
  • 산포도는 2가지 변수의 관계를 관찰할 때 유용 (상관 분석 등)

 

상관 관계 / 상관 계수

  • 두 양적 변수 간의 관계를 요약할 때 활용
  • 상관관계 : 한 변수가 증감할 때, 다른 변수가 얼마나 증감하는지를 나타내는 관계
  • 상관계수 : 상관관계를 -1 ~ 1 사이의 값으로 수치화한 것
  • 상관계수가 양수이면 한 변수가 증가할 때, 다른 변수도 증가하는 것을 의미 (양의 상관관계)
  • 상관계수가 음수이면 한 변수가 증가할 때, 다른 변수는 감소하는 것을 의미 (음의 상관관계)
  • 상관계수가 0이면 두 변수 사이에는 관계가 없다는 것을 의미

 

피어슨 상관계수 / 스피어만 순위 상관계수

  • 상관계수에는 대표적으로 피어슨 상관계수, 스피어만 순위 상관계수가 있음.
  • 피어슨 상관 계수 : 두 변수가 모두 연속형 자료일 때 사용하는 상관 계수, 두 변수가 모두 정규형을 따른다는 가정 필요
  • 스피어만 순위 상관계수 : 두 연속형 변수의 분포가 정규성을 벗어나거나 두 변수가 순서형 변수인 경우 사용하는 상관계수

 

  피어슨 상관 계수 스피어만 순위 상관계수
사용하는 변수 종류 연속형 변수와 연속형 변수 순서형 변수와 순서형 변수
모수적 방법 vs 비모수적 방법 모수적 방법 비모수적 방법
결과값의 범위 -1 이상 1 이하 -1 이상 1 이하

 

  • 모수적 방법 : 모수를 특정 분포로 가정하여 접근하는 방법
  • 비모수적 방법 : 모수를 특정 분포로 가정하지 않고 접근하는 방법, 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용

 

상자수염그림 (Boxplot)

  • 연속형 데이터를 다섯 숫자 요약을 이용하여 시각화한 그래프
  • 분포의 중심, 분산, 치우침, 이상치, 대칭성 등을 한눈에 파악하기 용이
  • 다섯 숫자 요약 : 최솟값, 제 1사분위 (Q1), 중앙값, 제 3사분위 (Q3), 최댓값
  • 사분위 범위 (Interquartile Range, IQR) = Q3 - Q1
  • 일반적으로 Q1과 Q3로부터 사분위 범위의 1.5배 밖에 있는 값을 이상치로 판별하고 점으로 표시

 

히트맵 (Heatmap)

  • 두 양적 변수의 상관관계, 상관계수를 시각화하는데 유용한 그래프
  • 여떤 변수들의 상관계수가 큰지, 또 그 정도가 얼마인지 등 다양한 정보를 한눈에 파악 가능
  • 다중공선성에 대한 정보도 제공