본문 바로가기

Theory/Data Analysis

[통계 분석] 02 데이터 확보 / 데이터 요약의 이해

by Orangetasteboy 2023. 9. 29.

Primary Data (1차 자료)

당면한 구체적인 목적을 해결하기 위해 분석자가 새로 수집하는 자료
수집 방법 : 서베이, 직접적인 실험 관찰 데이터
대표적인 수집 도구 : 구글 서베이

Secondary Data (2차 자료)

과거에 다른 목적이나 용도로 수집되었던 조직화된 정보에서 분석 목적에 적합한 데이터를 활용하는 자료
수집 방법 : 데이터베이스에서 추출, 크롤링
대표적인 수집 도구 : DB 추출 - SQL 등, 크롤링 - 크롤러 (파이썬 등으로 개발), 엑셀 파워 쿼리 등

크롤링 (Crawling)

소프트웨어를 통한 자동 데이터 수집

데이터 요약 - 기술 통계

데이터는 그저 단순한 숫자들이 나열로 보임.
데이터 그 자체로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법 필요
축약은 많은 숫자/문자로 저장되어 있는 데이터를 특정 기준으로 정리하여 의미있는 정보만을 추출한 것
축약 방법 : 그래프 생성, 숫자 하나로 데이터 특징 대표

통계량

데이터의 특징을 하나의 숫자로 요약한 것
데이터의 어떤 특징을 요약하고 싶은가에 따라 여러 가지 통계량 활용

통계량 (Excel 함수)	설명
평균 (Average)	많은 데이터를 단 하나의 값으로 요약할 때 쓰이는 통계량 데이터의 무게 중심에 해당
중앙값 (Median)	데이터를 크기 순서대로 나열했을 때, 중간 지점에 해당하는 값
편차 (관찰값 - 평균값)	각 데이터가 평균값으로부터 어느 정도 큰지, 작은지를 나타내는 것
분산 (VAR.P)	데이터가 평균으로부터 얼마나 퍼져있는지를 평가할 수 있는 통계량
표준편차 (STDEV.P)	'평균값'이 데이터의 분표를 대표하는 수치지만, 표준편차는 그 대푯값을 기점으로 해서 데이터가 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량

차트

일변량 : 범주형 (막대 그래프, 파이 차트), 연속형 (히스토그램, 상자수염그림)
다변량 : 범주형 (모자이크 플롯), 연속형 (산점도)

히스토그램 (Histogram)

도수분포표를 시각화한 그래프
가로축은 계급, 세로축은 도수를 나타냄.
연속형 데이터를 시각화하는데 사용
연속형 변수의 분포를 한눈에 볼 수 있음.
막대그래프와 달리 연속형 변수에 사용하므로 모든 막대 사이에 공백이 없음.
일반적으로 자료의 크기가 커질수록 구간의 개수는 늘어나고 구간의 폭은 줄어듬.

히스토그램 구간 설정 방법 (데이터 분포를 잘 보기 위한 방법)

일반적인 적용 : 5~20개 정도에서 전체 자료의 특징이 잘 나타나도록 결정
Sturges 공식 : 데이터 범위를 이용해서 적절한 구간 수를 도출하는 방법 (1 + 3.3logN)

'Theory > Data Analysis' 카테고리의 다른 글

[통계 분석] 06 유의성 검정 / 통계 분석 프로세스 (0)	2023.09.30
[통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계 (0)	2023.09.30
[통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수 (0)	2023.09.29
[통계 분석] 03 연속형(양적) 데이터 요약 (0)	2023.09.29
[통계 분석] 01 데이터 기반 의사결정과 데이터의 유형 (0)	2023.09.28

댓글

티스토리툴바