본문 바로가기

분류 전체보기195

[통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계 확률 분포 확률 분포란 모집단을 수학적으로 표현한 것 특정 확률 변수가 일어날 확률에 대한 정보 제공 특정 확률 변수의 확룰 분포를 알고 있다면 특정 사건이 일어날 확률을 계산(예측)할 수 있기 때문에 유용 확률 법칙 한 사건의 확률은 0과 1사이의 수이다. 여사건 법칙 : 어떤 사건이 일어날 확률은 '1 - 그 사건이 일어나지 않을 확률'이다. 덧셈 법칙 : 배반 사건들의 전체 확률은 각 확률을 더해서 구한다. 곱셈 법칙 : 일련의 독립 사건들이 일어날 전체 확률은 각 확률을 곱해서 구한다. 데이터의 부트스트랩 (Bootstrap) 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정 부트스트랩 분포를 이용해 추정값들의 불확실성 수치화 가능 강력한 가정 없이 확률 이론을 이용하지 않고서 추정.. 2023. 9. 30.
[통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수 도수분포표 (Frequency Table) 주어진 자료를 몇 개의 계급으로 나누고, 각 계급의 도수를 조사하여 자료의 분포 상태를 나타낸 표 막대 그래프 도수분포표에 대한 차트 시각화 막대 차트는 길이로 수치 표현 카테고리를 비교하는 가장 효과적인 방법으로 데이터 시각화에 널리 사용 수평이나 수직 방향으로 사용 가능 최대/최소 항목을 찾을 때 가장 흔히 사용 정렬해서 비교하면 유용 파이 차트 (Pie Chart) 각도, 영역, 아치로 데이터를 표현하여 전체에서 부분이 차지하는 비율 표시 비율 등 표시에 자주 이용 (구분이 5개를 넘는 것은 권장 X) 비슷한 크기가 있을 때 구분이 어려움. 트리맵 (Tree Map) 범주형 다변량 데이터를 표현하는데 적합 사각형의 넓이는 각 범주에 속한 데이터의 수 의미 .. 2023. 9. 29.
[통계 분석] 03 연속형(양적) 데이터 요약 중심경향치 자료의 중심을 나타내는 숫자 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표 대표적인 중심 경향치로는 평균값, 중앙값, 최빈값 등이 있음. 중심 경향치 설명 평균값 (Average) 자료의 합을 자료 개수로 나눈 값 평균은 극단적 값의 영향을 잘 받게 됨 중앙값 (Median) 자료를 크기 순으로 정렬했을 때 정 가운데 있는 값 자료의 상위 50%와 하위 50%를 가르는 지점 최빈값 (Mode) 가장 빈번하게 관찰, 측정되는 값 산포도 데이터가 대푯값을 중심으로 얼마나 흩어져 있는지를 나타내는 것 산포도 종류 설명 범위 (Range) 자료 중 가장 큰 값과 가장 작은 값의 차이를 나타낸 값 백분위수 (Percentile) 크기가 있는 값들로 이뤄진 자료를 순서대로 나열했을 때 백.. 2023. 9. 29.
[통계 분석] 02 데이터 확보 / 데이터 요약의 이해 Primary Data (1차 자료) 당면한 구체적인 목적을 해결하기 위해 분석자가 새로 수집하는 자료 수집 방법 : 서베이, 직접적인 실험 관찰 데이터 대표적인 수집 도구 : 구글 서베이 Secondary Data (2차 자료) 과거에 다른 목적이나 용도로 수집되었던 조직화된 정보에서 분석 목적에 적합한 데이터를 활용하는 자료 수집 방법 : 데이터베이스에서 추출, 크롤링 대표적인 수집 도구 : DB 추출 - SQL 등, 크롤링 - 크롤러 (파이썬 등으로 개발), 엑셀 파워 쿼리 등 크롤링 (Crawling) 소프트웨어를 통한 자동 데이터 수집 데이터 요약 - 기술 통계 데이터는 그저 단순한 숫자들이 나열로 보임. 데이터 그 자체로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법 필요.. 2023. 9. 29.