Computer Science/데이터 과학(Data Science)

[데과/DS] Visualization Theory

gxxgsta 2024. 4. 29. 05:25
반응형
SMALL
본 포스트는 2024년 봄 학기 충남대학교 이종률 교수님의 데이터 과학 강의 정리자료입니다.

 

Visualization Theory

데이터를 시각화하는 목적은 데이터의 결과 혹은 어떤 결론을 남에게 공유하기 위함이다.

그러나 위 사진과 같이 데이터의 포인트가 한 곳에 몰려 있으면 가독성이 떨어지기 때문에 Linearization을 진행할 수 있다.

 

Linearization

우리는 Linearization을 위해 스케일을 잘 선택해야 한다고 앞에서 언급한 적이 있었다. 이는 Linearization을 한다는 것에 조금 더 의미가 있다. 즉, 우리는 위 그래프와 같이 각 데이터 포인트들이 몰려 있는 형태가 아닌, 어떤 환경일 때 Linear한 relationship가 나오는지 확인하는 것이 중요하다.

 

따라서 우리는 Linearization 자체가 목적이 되는 경우라고 할 수 있다.

오른쪽의 경우 데이터의 스케일링을, y는 4제곱을 진행하여 transfomation된 모습이다. 따라서 linear한 그래프를 그려낼 수 있다. 데이터를 Linearization하는 것은 우리가 해석하기 쉽기 때문이다.

 

따라서, 데이터에 대해 Linearization 되는지에 대한 여부는 사실 중요치 않고 X와 Y가 어떤 형태인지가 더 중요하다.

위 사진에서 문제가 되는 것은 x축의 관점에서 파란색 부분에 피해 노란색 부분에 데이터가 몇 개 존재하지 않아 outlier처럼 보이고, 데이터가 몰려있는 것처럼 보인다. 따라서 outlier라고 생각되는 부분을 없앨 수도, 스케일링을 통해 바꿔 줄 수도 있다.

 

따라서 위 사진과 같이 변환을 진행할 수 있다. 로그로 변환하여 log x와 같은 형태로 처리해 주었고, 부족했던 부분들이 전반적으로 균일하게 분포되는 형태로 바뀐 것을 알 수 있다. 따라서 이를 log-transforming이라고 할 수 있으며, large-number일수록 값이 많이 줄어들고 small-number의 경우 적게 영향을 받으면서 균등한 분포로 만들어 줄 수 있다.

 

이번에는 몰려있는 y값에 대해서도 스케일링을 진행할 수 있다.

위 사진의 경우 power-transforming을 통해 y에 4제곱하여 표현해 줄 수 있다. 마찬가지로 작은 수의 경우 큰 영향을 받지 않고, 큰 수의 경우 값이 굉장히 커지게 된다.

 

결국 위 사진과 같이 나타낼 수 있는데, 이를 선형 그래프를 통해 나타내게 되면, y^4의 m은 선형 그래프의 slope(기울기)가 될 것이다. 즉, 오른쪽처럼 표현되어 있던 것을 선형적으로 나타낼 수 있다.

 

그러면 log x의 입장에서는 y의 네 제곱 관계로 선형적으로 표현할 수 있게 된다.

 

Tukey-Mosteller Bulge Diagram

데이터를 선형적으로 보여주기 위해 기술적으로 Tukey-Mosteller Bulge Diagram라는 것이 존재한다. 이 diagram 기술을 사용하면 linearization을 편하게 할 수 있다.

 

예를 들어 데이터가 위 사진과 같이 분포되어 있는 경우 x의 경우에는 log나 루트를 씌워주고, y의 경우 세 제곱, 또는 네 제곱을 진행하는 식으로 trandsformation을 진행하면 결과적으로 데이터가 선형 관계를 가지게 된다.

 

Visualizations are For Humans

우리가 데이터를 보여줄 때 위 사진과 같은 scatter plot을 제작하면 여러 개의 데이터가 겹쳐 실제 분포의 의미가 잘 보이지 않을 수 있다. 위의 경우 dense한 부분과 sparse한 부분을 구분할 수는 있지만 그 정도가 얼마인지 가늠이 안 된다. 따라서 히스토그램이나 KDE 등을 사용하면서 분포의 차이를 확인할 수 있으며, 상황에 맞는 시각화 도구를 사용해야 한다.

 

위 사진은 평균, 표준편차, 상관계수가 모두 동일한 데이터에 대해 서로 다르게 표현한 모습이다. 우리가 어떤 대표값으로 해당 데이터의 성격을 파악하는 것이 중요하긴 하지만 실제로 visualization하여 그 안의 property를 직접 눈으로 확인하는 과정도 매우 중요하다.

 

결국 위 사진과 같이 대표 통계 값을 활용하면서 잃어버린 정보가 굉장히 많을 수 있다.

 

Information Channels

information channel은 현재 보여주고 있는 것이 몇 개 종류의 정보를 가지고 있는가이다.

위 사진과 같이 각 데이터를 표현하는 방식은 다양하다.

 

Rug Plot

 

이때, Rug Plot의 경우 하나의 변수를 표현하는 방법인데, 위 사진과 같이 선으로 표현할 수도 있고,

원으로 표현할 수도 있다.

 

Scatter Plot

Scatter plot은 2개의 속성에 대해 위 사진과 같이 점으로 시각화를 진행할 수 있다.

 

Harnessing X/Y

 

Harnessing Color

 

Harnessing Markings

 

Harnessing Conditioning

 

Harnessing Context (for Publication)

 

반응형
LIST