본 포스트는 2024년 봄 학기 충남대학교 이종률 교수님의 데이터 과학 강의 정리자료입니다.
Data Science Lifecycle
위 사진은 데이터 과학의 생명 주기를 그래프로 나타낸 모습으로 일종의 방법론으로 볼 수 있다. 기본적으로 두 개의 entry point가 있다.
1. Question/Problem Formulation (질문/문제 공식화)
우리는 무엇을 알고 싶은지, 어떤 문제를 해결하고 싶어하는지 등에 대한 문제를 정의해야 한다. 또한 어떤 가설을 테스트하는지, 어떤 지표(metircs)를 사용해야 하는지를 정의해야 한다.
2. Data Acquisition and Cleaning (데이터 수집 및 정리)
이 단계에서는 우리가 어떤 데이터를 가지고 있고, 어떤 데이터가 부족한지에 대해 판단한다. 데이터를 추가적으로 얻을 수 있는 방법이나 현재 가지고 있는 데이터가 연구하고자 하는 과제에 대해 얼마나 대표할 수 있는지 평가할 수 있다.
3. Exploratory Data Analysis & Visualization (탐색적 데이터 분석 및 시각화)
이 단계에서는 데이터가 문제를 풀기 위해 적합한지 등을 판단할 수 있다. 또, 데이터의 bias나 outlier, 데이터 이슈나 null값 존재 유무를 파악할 수 있다.
4. Prediction and Inference (예측과 추론)
우리는 이러한 모든 일련의 과정은 real-world에서 만들어진 데이터를 통해 real-world를 이해하고자 하는 과정이다. 따라서 현 단계는 분석된 결과를 기반으로 실제로 문제를 풀고, 결과를 가지고 문제를 해결하기 위한 단계이다. 따라서 우리의 decision이 무엇인지 결론짓는 과정이다.
Data Science Methodoloy
CRISP-DM
Knowledge Discovery in Databases (KDD)
Team Data Science Process (TDSP)
OSEMN
'Computer Science > 데이터 과학(Data Science)' 카테고리의 다른 글
[데과/DS] Data Understanding & Visualization (0) | 2024.04.29 |
---|---|
[데과/DS] Regular Expression (정규 표현식) (1) | 2024.04.28 |
[데과/DS] Data Acquisition (데이터 취득) (0) | 2024.04.28 |
[데과/DS] Data Mining/Science Algorithms (1) | 2024.04.28 |
[데과/DS] Introduction to Data Science (2) | 2024.04.25 |