지금까지 캐글을 시작하지 못햇던 이유

Machine Learning|2022. 2. 7. 13:11
반응형

데이터 특성에 대한 이해가 선행되어야 하는데 무작정 데이터 정제 없이 머신러닝에 넣고 돌릴 생각만 하고 있었다.

EDA, 시각화 다 좋다 하지만 그전에 데이터 특성에 대한 아무런 이해가 없었는데 무슨 EDA를 하고 시각화를 하겠나,,

사이드 프로젝트건, 프로젝트건 앞으로 어떤 데이터를 다루든 간에, 해당 데이터의 각 특성이 무엇을 의미하는지

정확히 이해하는 게 선행되어야 한다.

 

지금 하려는 캐글 집값 예측 모델도, MSSubClass가 int 형이지만, 실상은 주거형태를 코드 형식으로 나타낸 것이고,

이러한 실상은 범주형인데 수치화된 특성을 어떻게 다룰지를 데이터 특성을 이해하면서 깨달아한다.

 

동일한 맥락으로 과도한 이상치는 어떻게 처리할 것인지 Q3로 조정할 것인지 아예 제거할 것인지도 생각해야한다.

 

시각화 또한 마찬가지이다. 

어떠한 데이터 특성인지 미리 알고 있다면, 어떠한 분포를 나타낼지 어느 정도는 예측이 가능할 것이다.

그게 안 될 때, 시각화를 하려는 것이지 무작정 모든 데이터를 시각화하려면 그게 끝이 보일 리가 없다.

시각화는 단지 데이터를 이해하고, EDA에 도움을 주는 tool 일 뿐이지 그것이 전부는 아니다.

 

데이터 특성을 이해하다 보면 특성의 개수를 줄일 수 있다는 확신을 얻게 된다.

간단한 예로 특성 중 방의 가로와 세로가 분리되어 2개의 특성으로 나타나 있다면, 

둘의 곱인 방의 넓이로 간단히 표현 가능하다. 

또한 한쪽에 치중되어 분포되어있는 특성은 크게 중요하지 않을 수도 있겠다란 생각이 들게 한다.

 

데이터 정제를 이런 식으로 진행하고 데이터를 머신러닝에 넣고 굴리든 말든 하지 

데이터 이론을 배우고 시각화를 배우고 머신러닝 딥러닝 케라스를 배우고

배우기만 하기에는 너무 할게 많다. 

캐글이 원하는 것은 이런 게 아니라는 것을 뒤늦게 깨닫고 다시 제대로 시작해보려 한다.

 

 

참고할 블로그

https://mazdah.tistory.com/878?category=598657 

 

[머신러닝 Reboot] 독해 - 핸즈온 머신러닝(2판) 2장

늘상 그래왔듯이…내 머릿속에는 온갖 잡다한 관심과 호기심들이 종횡무진 날아다닌다. 덕분에 뭔가 하나를 진득하니 진행할 수가 없다…ㅠ.ㅠ 핸즈온 머신러닝 2판을 일기 시작한 것이 언제인

mazdah.tistory.com

 

반응형

댓글()