도수분포표 (Frequency Table)
주어진 자료를 몇 개의 계급으로 나누고, 각 계급의 도수를 조사하여 자료의 분포 상태를 나타낸 표
막대 그래프
- 도수분포표에 대한 차트 시각화
- 막대 차트는 길이로 수치 표현
- 카테고리를 비교하는 가장 효과적인 방법으로 데이터 시각화에 널리 사용
- 수평이나 수직 방향으로 사용 가능
- 최대/최소 항목을 찾을 때 가장 흔히 사용
- 정렬해서 비교하면 유용
파이 차트 (Pie Chart)
- 각도, 영역, 아치로 데이터를 표현하여 전체에서 부분이 차지하는 비율 표시
- 비율 등 표시에 자주 이용 (구분이 5개를 넘는 것은 권장 X)
- 비슷한 크기가 있을 때 구분이 어려움.
트리맵 (Tree Map)
- 범주형 다변량 데이터를 표현하는데 적합
- 사각형의 넓이는 각 범주에 속한 데이터의 수 의미
- 어떤 범주에 속한 데이터가 많은지 넓이를 통해 한눈에 인지 가능
모집단 추정
- 전수조사 : 관심의 대상이 되는 집단의 모든 개체를 조사하는 것
- 표본조사 : 관심의 대상이 되는 전체 집단 중 일부를 선택하고, 그 선택된 일부만 조사하는 것
- 모집단 (Population) : 관심의 대상이 되는 모든 데이터 집합
- 표본 (Sample) : 모집단 중 조사 대상으로 채택된 일부 데이터 집합
- 모수 (Parameter) : 모집단의 특성을 나타내는 값
- 추정량 (Estimator) : 표본으로부터 모수를 측정하기 위한 값
추정 (Estimation)
- 모평균이나 모표준편차 등의 모수를 맞히고자 하는 것을 의미 (유사값을 구하고자 하는 것)
- 점 추정 : 모수를 1개의 값으로 추론
- 구간 추정 : 모수가 일정한 구간 내에 어느 정도의 정확도로 존재할 지 추론
- 점 추정만으로는 추정값을 얼마나 신뢰할 수 있는지 알 수 없기 때문에 구간 추정이 보다 실용적
구간 추정 핵심 개념
- 신뢰계수 : 구간 추정을 위해서는 모수를 포함하는 구간의 확률을 지정해야 하는데, 일반적으로 99% 또는 95%로 지정하는 확률, 이 값은 임의의 선택값
- 신뢰구간 : 신뢰계수를 95%로 정하고 확률 95%로 모수를 포함하는 구간(신뢰하한 ≤ 모수 ≤ 신뢰상한)을 도출해내고, 이 구간을 모수에 대한 신뢰계수 95%인 신뢰구간이라고 지칭
- 신뢰하한과 신뢰상한은 모두 표본의 통계량을 통해서만 도출, 추정하고자 하는 모수가 알맞은 추정구간 내에 존재한다고 믿을 수 있는 정도를 의미
- 구간추정에서는 신뢰수준, 신뢰구간을 같이 제시
신뢰 수준에 따른 신뢰구간
- 신뢰계수가 크면서 신뢰구간의 폭이 좁은 것이 바람직
- 일반적으로 신뢰계수를 올리면 신뢰구간의 폭이 넓어짐.
- 통계량을 구하는 표본 데이터가 늘어나면 신뢰계수를 낮추지 않아도, 신뢰구간의 폭이 대부분 좁아짐.
신뢰수준
- 95% 신뢰수준 : 신뢰구간을 100번 추정한다면 그 중 95개는 모수를 포함함을 의미
- 추정한 구간내에 어느 정도의 정확도로 모수를 포함하고 있을지 나타내는 수치
- 모수는 고정된 값이고 신뢰구간은 측정할 때마다 다르게 추정, 이때 이 구간들이 모수를 얼마나 많이 포함시킬지는 신뢰구간의 신뢰수준에 의해 결정
구간추정
- 모수가 포함되어 있을 가능성이 높은 구간/범위인 '신뢰구간'을 추정하는 것
- 점 추정 값 앞뒤로 오차범위를 제시하고(신뢰구간), 그 범위를 얼마나 신뢰할 수 있는지에 관한 정보(신뢰수준)를 함께 제공
확률
- 표본공간 : 얻을 수 있는 모든 가능한 결과들의 전체 집합
- 사건 : 어떤 조건을 만족시키느 ㄴ결과들의 집합, 표본공간의 부분집합
- 확률 = 사건 A의 원소의 개수 / 표본공간 S의 원소의 개수
확률 변수
무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
'Theory > Data Analysis' 카테고리의 다른 글
[통계 분석] 06 유의성 검정 / 통계 분석 프로세스 (0) | 2023.09.30 |
---|---|
[통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계 (0) | 2023.09.30 |
[통계 분석] 03 연속형(양적) 데이터 요약 (0) | 2023.09.29 |
[통계 분석] 02 데이터 확보 / 데이터 요약의 이해 (0) | 2023.09.29 |
[통계 분석] 01 데이터 기반 의사결정과 데이터의 유형 (0) | 2023.09.28 |
댓글