Search

03. ML Workflow - 데이터 분석 문제 정의

Created
2023/06/25 12:05
Tags
data science
machine learning
분석 문제 정의 : 어떤 문제를 머신러닝 방법론을 이용해서 해결할 것이냐! 머신러닝 방법론을 기준으로 문제를 정의하는 것.

이슈 파악 및 문제 도출

문제 이해를 위해 예시를 하나 정의합니다.
우리는 식물학자입니다.
Iris(붓꽃)의 생태계에 대해 연구를 해보려고 합니다.
조사를 한 결과, Iris는 3개의 종(setosa, versicolor, virginica)이 있다는 것을 확인했습니다.
우리는 Iris DB를 구축하려고 합니다.
이 DB에는 후대에 Iris를 연구하는 연구자들을 위해 Iris data를 입력하면 어떤 종(species)인지 알려주는 프로그램을 작성하려고 합니다.
Source : Iris setosa

분석 데이터 정의

우리는 이 3개의 종에 대한 특징을 기록(저장)하고 싶습니다.
어떤 정보들이 필요할까요?

머신러닝 문제 정의

정의한 특징들을 기반으로 Iris 데이터를 종별로 나누려고 합니다.
어떤 머신러닝 작업(task)들이 있을까요?
이 중에서 어떤 task가 우리가 하려는 일에 해당할까요?
분류” & “클러스터링
둘 중에 어떤 방법이 더 좋을까요?
분류! → 성능이 확실하다
Why?

베이스라인(baseline) 선정 → 기존 사례 조사

우리가 하려는 일을 과거에 한 사례가 있다면, 참고합시다.
“The Use of Multiple Measurements in Taxonomic Problems”
Original Research paper
Wikipedia(english)
Linear Discriminant Analysis(LDA)를 기준 방법으로 사용해보면 좋을 것 같습니다.
만약, 후대에 더 발전된 연구가 있다면? 또는 사례 조사가 있다면? → 비교적 최근 자료를 찾으면 더 좋다.

요약

(식물학자로써, Iris DB를 구축하고 싶을 때) 필요한 데이터와 문제 정의가 중요하다!
다양한 생각과 사례 조사를 통해 굉장히 구체적으로 정의하는 것이 중요하다.
데이터 정의를 할 땐, 어떤 특징(feature)을 사용할 것인가를 정의해야합니다.
머신러닝 문제 정의를 할 땐, 어떤 task로 분석을 할지 정의를 해야합니다.
베이스라인 선정을 할 땐, 사례 조사를 꼼꼼하게 잘 해야합니다. 비교적 최신 자료가 있다면 좋습니다.