Theory/Data Analysis7 [Python 데이터 분석] 01 데이터 불러오기 CSV ‘Comma-Separated Values’의 약자로 각각의 데이터 값을 콤마(,)로 구분하는 파일 형식 정부에서 운영하는 공공데이터포털(www.data.go.kr)이 제공하는 일반적인 파일 형식 CSV 파일에서 데이터 읽어오기 csv.reader() 함수 : CSV 파일에서 데이터를 읽어오는 함수 csv.writer() 함수 : CSV 파일에서 데이터를 저장하는 함수 import csv # csv 모듈 불러오기 f = open('seoul.csv', encoding='cp949') # csv 파일을 open() 함수로 열어서 f에 저장 data = csv.reader(f) # f를 reader() 함수에 넣어 data라는 csv reader 객체 생성 for row in data : print(.. 2023. 11. 2. [통계 분석] 06 유의성 검정 / 통계 분석 프로세스 유의 확률 p로 표기 귀무가설을 지지하는 힘 p-value는 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적 통계치가 관측될 확률 관찰된 데이터가 귀무가설과 양립하는 정도를 0~1사이의 수치로 표현한 것 p-value가 적을수록 그 정도가 약하다고 보며, 특정값(대개 0.05 또는 0.01)보다 작을 경우 귀무가설을 기각 대립가설을 지지하는 검정통계치를 모을 확률로 귀무가설을 지지하는 정도로 해석 유의 수준 α로 표기 통계적 가설검정에서 귀무가설의 기각 여부를 결정하는데 사용되는 기준이 되는 확률 95% 신뢰도를 기준으로 한다면 0.05가 유의수준 값 1종 오류를 범할 확률의 허용한계로 유의 수준과 유의 확률을 비교해서 귀무가설의 기각 여부를 결정 표본을 토대로 내린 결론.. 2023. 9. 30. [통계 분석] 05 확률 분포 / 표본으로 모집단 추정 / 인과 관계와 상관 관계 확률 분포 확률 분포란 모집단을 수학적으로 표현한 것 특정 확률 변수가 일어날 확률에 대한 정보 제공 특정 확률 변수의 확룰 분포를 알고 있다면 특정 사건이 일어날 확률을 계산(예측)할 수 있기 때문에 유용 확률 법칙 한 사건의 확률은 0과 1사이의 수이다. 여사건 법칙 : 어떤 사건이 일어날 확률은 '1 - 그 사건이 일어나지 않을 확률'이다. 덧셈 법칙 : 배반 사건들의 전체 확률은 각 확률을 더해서 구한다. 곱셈 법칙 : 일련의 독립 사건들이 일어날 전체 확률은 각 확률을 곱해서 구한다. 데이터의 부트스트랩 (Bootstrap) 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정 부트스트랩 분포를 이용해 추정값들의 불확실성 수치화 가능 강력한 가정 없이 확률 이론을 이용하지 않고서 추정.. 2023. 9. 30. [통계 분석] 04 범주형(질적) 데이터 요약 / 모집단 추정과 확률 변수 도수분포표 (Frequency Table) 주어진 자료를 몇 개의 계급으로 나누고, 각 계급의 도수를 조사하여 자료의 분포 상태를 나타낸 표 막대 그래프 도수분포표에 대한 차트 시각화 막대 차트는 길이로 수치 표현 카테고리를 비교하는 가장 효과적인 방법으로 데이터 시각화에 널리 사용 수평이나 수직 방향으로 사용 가능 최대/최소 항목을 찾을 때 가장 흔히 사용 정렬해서 비교하면 유용 파이 차트 (Pie Chart) 각도, 영역, 아치로 데이터를 표현하여 전체에서 부분이 차지하는 비율 표시 비율 등 표시에 자주 이용 (구분이 5개를 넘는 것은 권장 X) 비슷한 크기가 있을 때 구분이 어려움. 트리맵 (Tree Map) 범주형 다변량 데이터를 표현하는데 적합 사각형의 넓이는 각 범주에 속한 데이터의 수 의미 .. 2023. 9. 29. 이전 1 2 다음