이번 시간에는 데이터 과학이 무엇인지에 대해 알아보도록 하겠다.
● 데이터 과학
⊙ 데이터에서 지식을 추출하는 학문 → 컴퓨터 과학, 통계학, 도메인 지식을 기반으로 함.
ex) 데이터베이스, 텍스트 분석과 자연어 처리, 수치형 데이터 분석과 데이터마이닝, 복잡계 네트워크 분석,
데이터 시각화, 머신러닝, 시계열 데이터 처리, 빅데이터 분석
UNIT 01. 데이터 분석 과정
⊙ 데이터 분석 과정 == 일반적인 과학적 발견 절차
⊙ 발견 시작
- 대답해야할 질문
- 적용해야할 분석 방법
① 기술 (descriptive) 통계
- 데이터 시각화
② 추정 (inferential)
- 작은 샘플 → 더 큰 모수 알기
③ 예측 (predictive)
- 과거에서 배워 미래 예측
④ 인과 (casual) 분석
- 서로에게 미치는 변수 식별
⑤ 역학 (mechanistic) 분석
- 변수가 다른 변수에 어떤 영향을 주는지 탐구
⊙ 좋은 데이터 사용이 분석의 퀄리티를 높임
⊙ 이상적인 데이터셋을 구하기 어려움.
⊙ 원천 데이터는 웹 or DB를 통해서 구하기 어렵지 않음.
- 내려받기, 문자 해독 파이썬 코드가 널려 있음.
- 'Unit 02. 데이터 수집 파이프라인'
- 더러운 (dirty) 데이터
- 누락된 값, 이상치, 비정상적인 아이템
- 예) 미래의 생년월일, 음수인 나이와 체중, noreply@ 같은 사용할 수 없는 이메일 주소
-데이터 정체, 통계학 지식을 활용하여 정규화
⊙ 기술 통계 분석과 탐색적 분석
-결과물
- 산포도 (scatter plot)
- 히스토그램
- 통계적 요약
-데이터셋 감 잡기
-후속 분석 방향 결정
-특히, 변수가 많다면 반드시 필요
⊙ 미래 예측
-적절하게 학습된 데이터 모델
-과거를 배워 미래 예측
-예측 정확도 평가
⊙ 결과 해석 및 비판
-통계학자나 프로그래머가 아닌 도메인 전문가로서 역할 수행
-얻은 결과가 정말 의미가 있나?
-다른 사람의 관심을 끌거나 변화로 이어지는가?
-잘한 부분, 잘 못한 부분, 개선 사항 등을 평가
-다른 질문, 다른 모델을 만드는 것이 나을까?
⊙ 보고서 작성
-어떻게
-왜
-어떤 모델
-어떤 결론과 예측
⊙ 이 책은 준비 단계에 초점 (데이터 모델링은 거의 다루지 않음)
-준비 단계
- 데이터 수집
- 전처리
- 정리
- 분류
-결과 해석, 비판, 보고는 주제에 따라 접근 방식 취함.
다음 시간에는 데이터 수집 파이프라인에 대해 알아보도록 하겠다.
'CS > Data Science for Everyone with Python' 카테고리의 다른 글
1. 소개 (0) | 2020.04.24 |
---|