본문 바로가기
Theory/Data Analysis

[통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수

by Orangetasteboy 2023. 9. 29.

도수분포표 (Frequency Table)

주어진 자료를 몇 개의 계급으로 나누고, 각 계급의 도수를 조사하여 자료의 분포 상태를 나타낸 표

 

막대 그래프

  • 도수분포표에 대한 차트 시각화
  • 막대 차트는 길이로 수치 표현
  • 카테고리를 비교하는 가장 효과적인 방법으로 데이터 시각화에 널리 사용
  • 수평이나 수직 방향으로 사용 가능
  • 최대/최소 항목을 찾을 때 가장 흔히 사용
  • 정렬해서 비교하면 유용

 

파이 차트 (Pie Chart)

  • 각도, 영역, 아치로 데이터를 표현하여 전체에서 부분이 차지하는 비율 표시
  • 비율 등 표시에 자주 이용 (구분이 5개를 넘는 것은 권장 X)
  • 비슷한 크기가 있을 때 구분이 어려움.

 

트리맵 (Tree Map)

  • 범주형 다변량 데이터를 표현하는데 적합
  • 사각형의 넓이는 각 범주에 속한 데이터의 수 의미
  • 어떤 범주에 속한 데이터가 많은지 넓이를 통해 한눈에 인지 가능

 

모집단 추정

  • 전수조사 : 관심의 대상이 되는 집단의 모든 개체를 조사하는 것
  • 표본조사 : 관심의 대상이 되는 전체 집단 중 일부를 선택하고, 그 선택된 일부만 조사하는 것
  • 모집단 (Population) : 관심의 대상이 되는 모든 데이터 집합
  • 표본 (Sample) : 모집단 중 조사 대상으로 채택된 일부 데이터 집합
  • 모수 (Parameter) : 모집단의 특성을 나타내는 값
  • 추정량 (Estimator) : 표본으로부터 모수를 측정하기 위한 값

 

추정 (Estimation)

  • 모평균이나 모표준편차 등의 모수를 맞히고자 하는 것을 의미 (유사값을 구하고자 하는 것)
  • 점 추정 : 모수를 1개의 값으로 추론
  • 구간 추정 : 모수가 일정한 구간 내에 어느 정도의 정확도로 존재할 지 추론
  • 점 추정만으로는 추정값을 얼마나 신뢰할 수 있는지 알 수 없기 때문에 구간 추정이 보다 실용적

 

구간 추정 핵심 개념

  • 신뢰계수 : 구간 추정을 위해서는 모수를 포함하는 구간의 확률을 지정해야 하는데, 일반적으로 99% 또는 95%로 지정하는 확률, 이 값은 임의의 선택값
  • 신뢰구간 : 신뢰계수를 95%로 정하고 확률 95%로 모수를 포함하는 구간(신뢰하한 ≤ 모수 ≤ 신뢰상한)을 도출해내고, 이 구간을 모수에 대한 신뢰계수 95%인 신뢰구간이라고 지칭
  • 신뢰하한과 신뢰상한은 모두 표본의 통계량을 통해서만 도출, 추정하고자 하는 모수가 알맞은 추정구간 내에 존재한다고 믿을 수 있는 정도를 의미
  • 구간추정에서는 신뢰수준, 신뢰구간을 같이 제시

 

신뢰 수준에 따른 신뢰구간

  • 신뢰계수가 크면서 신뢰구간의 폭이 좁은 것이 바람직
  • 일반적으로 신뢰계수를 올리면 신뢰구간의 폭이 넓어짐.
  • 통계량을 구하는 표본 데이터가 늘어나면 신뢰계수를 낮추지 않아도, 신뢰구간의 폭이 대부분 좁아짐.

 

신뢰수준

  • 95% 신뢰수준 : 신뢰구간을 100번 추정한다면 그 중 95개는 모수를 포함함을 의미
  • 추정한 구간내에 어느 정도의 정확도로 모수를 포함하고 있을지 나타내는 수치
  • 모수는 고정된 값이고 신뢰구간은 측정할 때마다 다르게 추정, 이때 이 구간들이 모수를 얼마나 많이 포함시킬지는 신뢰구간의 신뢰수준에 의해 결정

 

구간추정

  • 모수가 포함되어 있을 가능성이 높은 구간/범위인 '신뢰구간'을 추정하는 것
  • 점 추정 값 앞뒤로 오차범위를 제시하고(신뢰구간), 그 범위를 얼마나 신뢰할 수 있는지에 관한 정보(신뢰수준)를 함께 제공

 

확률

  • 표본공간 : 얻을 수 있는 모든 가능한 결과들의 전체 집합
  • 사건 : 어떤 조건을 만족시키느 ㄴ결과들의 집합, 표본공간의 부분집합
  • 확률 = 사건 A의 원소의 개수 / 표본공간 S의 원소의 개수

 

확률 변수

무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

댓글