Primary Data (1차 자료)
- 당면한 구체적인 목적을 해결하기 위해 분석자가 새로 수집하는 자료
- 수집 방법 : 서베이, 직접적인 실험 관찰 데이터
- 대표적인 수집 도구 : 구글 서베이
Secondary Data (2차 자료)
- 과거에 다른 목적이나 용도로 수집되었던 조직화된 정보에서 분석 목적에 적합한 데이터를 활용하는 자료
- 수집 방법 : 데이터베이스에서 추출, 크롤링
- 대표적인 수집 도구 : DB 추출 - SQL 등, 크롤링 - 크롤러 (파이썬 등으로 개발), 엑셀 파워 쿼리 등
크롤링 (Crawling)
소프트웨어를 통한 자동 데이터 수집
데이터 요약 - 기술 통계
- 데이터는 그저 단순한 숫자들이 나열로 보임.
- 데이터 그 자체로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법 필요
- 축약은 많은 숫자/문자로 저장되어 있는 데이터를 특정 기준으로 정리하여 의미있는 정보만을 추출한 것
- 축약 방법 : 그래프 생성, 숫자 하나로 데이터 특징 대표
통계량
- 데이터의 특징을 하나의 숫자로 요약한 것
- 데이터의 어떤 특징을 요약하고 싶은가에 따라 여러 가지 통계량 활용
통계량 (Excel 함수) | 설명 |
평균 (Average) | 많은 데이터를 단 하나의 값으로 요약할 때 쓰이는 통계량 데이터의 무게 중심에 해당 |
중앙값 (Median) | 데이터를 크기 순서대로 나열했을 때, 중간 지점에 해당하는 값 |
편차 (관찰값 - 평균값) | 각 데이터가 평균값으로부터 어느 정도 큰지, 작은지를 나타내는 것 |
분산 (VAR.P) | 데이터가 평균으로부터 얼마나 퍼져있는지를 평가할 수 있는 통계량 |
표준편차 (STDEV.P) | '평균값'이 데이터의 분표를 대표하는 수치지만, 표준편차는 그 대푯값을 기점으로 해서 데이터가 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 |
차트
- 일변량 : 범주형 (막대 그래프, 파이 차트), 연속형 (히스토그램, 상자수염그림)
- 다변량 : 범주형 (모자이크 플롯), 연속형 (산점도)
히스토그램 (Histogram)
- 도수분포표를 시각화한 그래프
- 가로축은 계급, 세로축은 도수를 나타냄.
- 연속형 데이터를 시각화하는데 사용
- 연속형 변수의 분포를 한눈에 볼 수 있음.
- 막대그래프와 달리 연속형 변수에 사용하므로 모든 막대 사이에 공백이 없음.
- 일반적으로 자료의 크기가 커질수록 구간의 개수는 늘어나고 구간의 폭은 줄어듬.
히스토그램 구간 설정 방법 (데이터 분포를 잘 보기 위한 방법)
- 일반적인 적용 : 5~20개 정도에서 전체 자료의 특징이 잘 나타나도록 결정
- Sturges 공식 : 데이터 범위를 이용해서 적절한 구간 수를 도출하는 방법 (1 + 3.3logN)
'Theory > Data Analysis' 카테고리의 다른 글
[통계 분석] 06 유의성 검정 / 통계 분석 프로세스 (0) | 2023.09.30 |
---|---|
[통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계 (0) | 2023.09.30 |
[통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수 (0) | 2023.09.29 |
[통계 분석] 03 연속형(양적) 데이터 요약 (0) | 2023.09.29 |
[통계 분석] 01 데이터 기반 의사결정과 데이터의 유형 (0) | 2023.09.28 |
댓글