Computer Science/데이터 과학(Data Science)

[데과/DS] Introduction to Data Science

gxxgsta 2024. 4. 25. 23:41
반응형
SMALL
본 포스트는 2024년 봄 학기 충남대학교 이종률 교수님의 데이터 과학 강의 정리자료입니다.

 

데이터 과학 적용 예시

Silicon wafer Defect

실리콘 웨이퍼의 결함을 탐지할 수 있다. 위 사진처럼 다양한 종류의 결함이 존재하고, 실리콘 웨이퍼의 결함을 탐지함으로써 시설을 정비할 수 있다. 이러한 detection을 데이터 과학을 통해 진행할 수 있다.

 

Item recommendation

넷플릭스나 유튜브와 같이 유저에게 컨텐츠를 추천할 때에도 데이터 과학을 사용할 수 있다.

위 사진은 product에 따른 인기도를 그래프화한 것이다. 대부분의 product들이 일반적인 인기도를 가지고 있지 않다. 이러한 product들을 long tail이라고 하는데, 추천 시스템의 목표는 사용자의 취향에 맞는 long tail을 추천하는 것이다.

 

Scientific Findings: Blackhole

왼쪽 사진의 ETH는 Event Horizon Telescope의 약자로 2019년에 처음으로 관측에 성공하였다. 그런데, 이렇게 관측한 블랙홀을 우리가 이해할 수 있는 형태로 시각화하기 위해 common pattern에 따라 깔끔한 이미지로 만들었다. 이때, common pattern을 뽑기 위해 데이터 과학 기술이 사용되었다.

 

블랙홀 관련 데이터를 30,000개를 수집한 후, PRIMO는 이들간의 패턴을 찾아 모든 이지를 결합하여 하나의 새로운 고화질 이미지로 만들어냈다.

 

John Snow's cholera map

과거 콜레라가 창궐했을 시절, John Snow 박사는 콜레라의 발병 원인을 찾기 위해 지도에 콜레라가 발병한 사람들을 표시하였다. 지도를 통해 콜레라 발병이 상수도와의 연관 관계를 파악하는 데에 기여할 수 있었다.

 

이 사례는 데이터 시각화와 관련한 가장 traditional하고 유명한 사례 중 하나이다.

COVID - 19

위 사진은 2020년 코로나 펜데믹 시, 코로나 검사당 확진자 수를 보여주는 그래프이다. 이때, 파란색이 확진자에 대한 그래프이고, 꺾은선 그래프로 표시된 것이 코로나 검사 수이다. 만약, 확진자의 수만 본다면 의미 없이 확진자의 수가 늘어나고만 있는 것을 확인할 수 있지만, 일정한 점을 분기로 하여 확진자의 상승폭이 줄어들고 있음을 확인할 수 있다.

 

이러한 결과를 바탕으로 해당 점에서 정부의 거리두기 정책으로인해 코로나 검사 당 확진자의 비율이 줄고 있음을 확인할 수 있었고, 이 결과를 바탕으로 해당 정책이 유의미한지를 판단할 수 있다.

 

위의 사례들과 같이 우리는 데이터 과학이라는 학문을 통해 다양한 질문을 데이터 기반으로 답변할 수 있다. 물론 직접적으로 문제를 해결할 수 있는 경우도 있지만, 그렇지 않은 경우 간접적인 지표를 통해서 방법을 찾을 수도 있다.

 

What is Data Science?

Keywords for Data Science

데이터 과학에서의 중요한 키워드를 소개하겠다.

 

Problem

데이터 과학에서 가장 중요한 것으로 우리가 해결하고 싶은 문제가 무엇인지, 해당 문제로부터 무엇을 얻어낼 수 있는지 등과 같은 것을 말한다. 이때, 이 problem에는 데이터도 포함된다.

 

Techniques/Tools

문제를 정의한 후 해당 문제를 어떻게 해결할 것인지에 대해 기술적, 도구적으로 접근할 수 있다.

 

Bias

데이터의 한계로 bias가 없는 데이터를 얻는 것이 불가능하다는 것이 있다. 우리가 주어진 데이터에 대해 샘플링을 진행하면서 최대한의bias를 없애려고 노력하지만, 완전히 없애는 것은 불가능하다. 따라서, 현재 우리가 가진 데이터에 대해 어떤 bias를 가졌는지, 어떤 한계를 가졌는지 파악하는 것이 굉장히 중요하다.

 

Quantity/Quality

데이터에 관한 정보로 데이터를 얻을 때 어떤 질로 얼마의 양을 얻을 것인지 결정할 수 있다. 당연히 높은 질로 많은 데이터를 얻는 것이 좋지만, 우리는 그렇게 하는 것이 어려운 일임을 안다. 따라서 우리가 보유한 데이터의 퀄리티가 충분한지, 또는 충분한 양을 가지고 있는지를 판단하는 것이 중요하다.

 

또는, 데이터 관점에서 low quality를 high quality로 만들기 위하여 preprocessing를 진행할 수 있다.

 

Correlation/Causality

우리는 데이터를 분석할 때, 상관관계와 인과관계를 나타내는 경우가 많다. 그런데, 이 둘을 헷갈려서 상관관계가 있는 데이터를 인과관계로 잘못 해석할 수 있다. 따라서, 이러한 개념에 따라 우리는 결론을 정확히 낼 필요성이 있다.

 

Insight

결국 우리는 문제를 해결하는 insight를 얻기 위해 주어진 데이터를 바탕으로 분석을 진행한다. 즉, 데이터 분석을 진행하는 최종 목표가 insight인 것이다. 

 

Data Science vs. Data Engineering

Data Science

Fact, insight, 데이터의 실질적인 의미, 즉 데이터를 이해하는 것에 초점이 맞춰져 있다.

 

Data Engineering

정확도, 속도 등 공학적인 관점으로 데이터 프로세싱(처리)에 초점이 맞춰져 있다.

 

따라서 데이터 과학은 사람이 기준이 되는 분야로 어떤 결과를 내리는 데에 필요한 일련의 과정이 존재한다.

 

- 관련 데이터 찾기

- 데이터의 limitation 인식하기

- 데이터를 기준으로 문제 찾기

- readonable한 가정 만들기

- 적절한 분석을 수행하기

- insight를 도출하기

 

이때, 이러한 과정에서 비판적으로 생각하고 회의적으로 바라보는 것이 필요하다. 왜냐하면 데이터 과학을 통해 나온 결론이 누군가에게 영향을 끼칠 수 있기 때문이다.

 

위 사진은 데이터 과학의 주변 분야들을 벤다이어그램으로 나타낸 모습이다. 데이터 과학에서 수학과 통계 지식은 중요한 분야라고 할 수 있다.

 

또한 위 사진에서 해킹 스킬은 데이터를 파고들어 이면에 존재하는 다른 지식이나 insight를 뽑아내는 것을 이야기한다. 또, danger zone은 수학적 통계 지식 없이 데이터를 분석하여 잘못된 결과를 낼 수 있음을 말한다. 즉, 수학적 통계의 배경 지식 없이 해당 기술을 써야하는 이유 등에 대한 이유를 모르고 그럴듯해 보이는 분석 결과를 만들면 데미지를 입을 여지가 많다.

 

따라서 데이터 과학자들은 위 사진에서 언급하는 다양한 소양을 균형있게 가져야 한다고 한다. 이러한 이야기는 앞서 언급했던 데이터 분석에서 회의적이고 비판적으로 바라봐야 한다는 것과 연관된다.

 

위에서 보이는 사진과 같이 데이터 과학은 굉장히 다양한 분야와 연관되어 있다.

 

위 사진은 데이터 과학자를 상대로 major한 task에 대해 물어본 결과이다.

 

가장 높은 비율을 차지하고 있는 Basic Exploratory Data Analysis는 줄여서 EDA라고도 부르며 문제를 본격적으로 풀기 전에 데이터에 대한 평균이나 분산, 표준 편차 등을 구하는 데이터 분석을 이야기한다.

 

데이터 과학을 위한 도구는 많이 존재한다. 하지만 이러한 도구들이 insight를 뽑아내는 역할을 할 수 없기 때문에 데이터 과학자들은 툴을 잘 활용하여 insight를 뽑아낼 수 있어야 한다.

 

Data Science Trends

Automated Data Science

데이터 분석을 자동화하며 비즈니스에 가치있는 영향을 제공할 수 있다.

 

In-memory computing

과거 관계형 데이터베이스를 사용하여 각 데이터를 모아 분석하였지만, 최근 컴퓨팅 기술의 발전으로 in-memory를 통해 데이터 분석을 진행할 수 있다.

 

Data as a Service

데이터가 많아지면서 데이터를 일종의 서비스에 이용하여 기업의 수익성을 높일 수 있다.

 

Augmented Analytics

기계 학습 및 인공지능을 사용하여 데이터 분석을 생성하고 개발 및 공유하는 새로운 방법을 찾아 데이터 분석을 향상시킬 수 있다. automated data science와 연관된 일종의 분석 자동화이다.

 

Edge Computing

많은 edge가 퍼져있는데, 각 edge에서 얻은 데이터를 해당 edge에서 처리하는 방법으로 중앙의 부하를 분산하고, latency를 줄여 즉시 대응할 수 있다.

 

반응형
LIST