Computer Science/데이터 과학(Data Science)

[데과/DS] Data Science Methdology

gxxgsta 2024. 4. 26. 16:50
반응형
SMALL
본 포스트는 2024년 봄 학기 충남대학교 이종률 교수님의 데이터 과학 강의 정리자료입니다.

 

Data Science Lifecycle

위 사진은 데이터 과학의 생명 주기를 그래프로 나타낸 모습으로 일종의 방법론으로 볼 수 있다. 기본적으로 두 개의 entry point가 있다.

 

1. Question/Problem Formulation (질문/문제 공식화)

우리는 무엇을 알고 싶은지, 어떤 문제를 해결하고 싶어하는지 등에 대한 문제를 정의해야 한다. 또한 어떤 가설을 테스트하는지, 어떤 지표(metircs)를 사용해야 하는지를 정의해야 한다.

 

2. Data Acquisition and Cleaning (데이터 수집 및 정리)

이 단계에서는 우리가 어떤 데이터를 가지고 있고, 어떤 데이터가 부족한지에 대해 판단한다. 데이터를 추가적으로 얻을 수 있는 방법이나 현재 가지고 있는 데이터가 연구하고자 하는 과제에 대해 얼마나 대표할 수 있는지 평가할 수 있다.

 

3. Exploratory Data Analysis & Visualization (탐색적 데이터 분석 및 시각화)

이 단계에서는 데이터가 문제를 풀기 위해 적합한지 등을 판단할 수 있다. 또, 데이터의 bias나 outlier, 데이터 이슈나 null값 존재 유무를 파악할 수 있다.

 

4. Prediction and Inference (예측과 추론)

우리는 이러한 모든 일련의 과정은 real-world에서 만들어진 데이터를 통해 real-world를 이해하고자 하는 과정이다. 따라서 현 단계는 분석된 결과를 기반으로 실제로 문제를 풀고, 결과를 가지고 문제를 해결하기 위한 단계이다. 따라서 우리의 decision이 무엇인지 결론짓는 과정이다.

 

Data Science Methodoloy

 

CRISP-DM

 

Knowledge Discovery in Databases (KDD)

 

Team Data Science Process (TDSP)

 

OSEMN

 

 

반응형
LIST