본문 바로가기
Theory/Data Analysis

[통계 분석] 02 데이터 확보 / 데이터 요약의 이해

by Orangetasteboy 2023. 9. 29.

Primary Data (1차 자료)

  • 당면한 구체적인 목적을 해결하기 위해 분석자가 새로 수집하는 자료
  • 수집 방법 : 서베이, 직접적인 실험 관찰 데이터
  • 대표적인 수집 도구 : 구글 서베이

 

Secondary Data (2차 자료)

  • 과거에 다른 목적이나 용도로 수집되었던 조직화된 정보에서 분석 목적에 적합한 데이터를 활용하는 자료
  • 수집 방법 : 데이터베이스에서 추출, 크롤링
  • 대표적인 수집 도구 : DB 추출 - SQL 등, 크롤링 - 크롤러 (파이썬 등으로 개발), 엑셀 파워 쿼리 등

 

크롤링 (Crawling)

소프트웨어를 통한 자동 데이터 수집

 

데이터 요약 - 기술 통계

  • 데이터는 그저 단순한 숫자들이 나열로 보임.
  • 데이터 그 자체로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법 필요
  • 축약은 많은 숫자/문자로 저장되어 있는 데이터를 특정 기준으로 정리하여 의미있는 정보만을 추출한 것
  • 축약 방법 : 그래프 생성, 숫자 하나로 데이터 특징 대표

 

통계량

  • 데이터의 특징을 하나의 숫자로 요약한 것
  • 데이터의 어떤 특징을 요약하고 싶은가에 따라 여러 가지 통계량 활용
통계량 (Excel 함수) 설명
평균 (Average) 많은 데이터를 단 하나의 값으로 요약할 때 쓰이는 통계량
데이터의 무게 중심에 해당
중앙값 (Median) 데이터를 크기 순서대로 나열했을 때, 중간 지점에 해당하는 값
편차 (관찰값 - 평균값) 각 데이터가 평균값으로부터 어느 정도 큰지, 작은지를 나타내는 것
분산 (VAR.P) 데이터가 평균으로부터 얼마나 퍼져있는지를 평가할 수 있는 통계량
표준편차 (STDEV.P) '평균값'이 데이터의 분표를 대표하는 수치지만, 표준편차는 그 대푯값을 기점으로 해서 데이터가 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량

 

차트

  • 일변량 : 범주형 (막대 그래프, 파이 차트), 연속형 (히스토그램, 상자수염그림)
  • 다변량 : 범주형 (모자이크 플롯), 연속형 (산점도)

 

히스토그램 (Histogram)

  • 도수분포표를 시각화한 그래프
  • 가로축은 계급, 세로축은 도수를 나타냄.
  • 연속형 데이터를 시각화하는데 사용
  • 연속형 변수의 분포를 한눈에 볼 수 있음.
  • 막대그래프와 달리 연속형 변수에 사용하므로 모든 막대 사이에 공백이 없음.
  • 일반적으로 자료의 크기가 커질수록 구간의 개수는 늘어나고 구간의 폭은 줄어듬.

 

히스토그램 구간 설정 방법 (데이터 분포를 잘 보기 위한 방법)

  1. 일반적인 적용 : 5~20개 정도에서 전체 자료의 특징이 잘 나타나도록 결정
  2. Sturges 공식 : 데이터 범위를 이용해서 적절한 구간 수를 도출하는 방법 (1 + 3.3logN)

댓글