데이터 과학 프로젝트의 성공은 효과적인 데이터 전처리와 모델 튜닝에 달려 있습니다. 이 글에서는 실무자가 반드시 알아야 할 전처리 단계와 모델 튜닝 전략을 소개합니다. 전처리의 중요성과 함께, 모델 성능을 극대화하는 파라미터 그리드 설계 방법을 배워보세요.
주요내용
- 데이터 전처리와 모델 튜닝은 🔄 피드백 루프를 통해 반복적으로 개선됩니다.
- 필수 전처리 절차는 🛠️ 순차적으로 진행하며, 특별한 하이퍼 파라미터 튜닝이 필요하지 않습니다.
- 성능 향상을 위한 전처리는 🎛️ 튜닝을 필요로 하며, 모델의 성능에 큰 영향을 미칩니다.
실제 데이터 탐색과 전처리
-
데이터 탐색과 전처리는 결코 한 번에 끝나지 않습니다. (피드백 루프가 존재합니다)
-
보통은 탐색 한 번에 전처리 한 번입니다.
-
전처리마다 다양한 하이퍼 파라미터가 있어서 그 결과에 따라 모델 하이퍼 파라미터와 같이 튜닝해줘야 합니다.
현실적인 모델 생성 프로세스 (1) - 필수 전처리
-
필수 전처리는 데이터 통합, 결측치 처리, 범주형 변수 처리, 라벨 처리 등이 있다.
-
일반적으로 필수적인 전처리는 특별한 하이퍼 파라미터 튜닝이 필요하지 않으므로
순차적으로 진행
해주는게 좋다.
-
1) 파편화된 데이터가 있다면 통합 (하나의 df만들기)
-
2) 통합된 df에서 결측치 확인 후 제거 / 대체 / 예측 (3옵션중 선택해야 하므로 어느정도 튜닝이 필요하긴 함)
-
3) 범주형 변수 여부 확인 -> 있을 경우 더미화 / 연속형 변수로 변환 처리
-
4) 라벨이 문자형인지 확인 -> 변환 작업
-
4번 작업은 1번 바로 다음에 해도 된다.
현실적인 모델 생성 프로세스 (2) - 성능 향상을 위한 전처리
-
관련된 전처리에는 변수 분포, 클래스 불균형, 특징 선택 등이 있다.
-
일반적으로는 성능 향상을 위한 전처리는 튜닝도 같이 해줘야 한다.
-
신규 특징 추가(파생변수 생성)시에는 가급적 많은 특징을 추가하면 모델 성능 향상에 도움이 될 가능성이 높다.
-
추후에
특징선택
전처리로 차원 축소를 해줄 것이기 때문에 부담없이 추가해도 된다. -
물론 합리적인 판단하에 적절한 변수를 추가해야 한다.
-
해당 작업을 통해 이전 과정으로 돌아가는 피드백 루프를 줄일 수 있다는 장점이 있기도 하다.
-
-
이상치 확인과 특징간 상관관계 확인은 실무에서 많이 스킵하는 구간이다.
-
이상치를 제거한다고 반드시 모델 성능이 향상되지는 않는다. (경우에 따라 보전하는 것이 더 좋을 때도 있음)
-
특징간 상관성이 있을 때 모델에 영향을 받는 모델이 있고, 그렇지 않은 모델이 있기 때문.
-
즉 특정 변수들이 특징간 상관관계가 크다면, 상관성에 영향을 받지 않는 모델로 바꾸면 된다.
-
-
별표 표시가 된 부분은 값을 어떻게 전처리하느냐에 따라 모델 성능에 크게 영향을 미칠 수 있는 전처리들이다.(튜닝을 반드시 해줘야 함)
-
스케일링을 한 후에 클래스 불균형을 확인한다.
- Resampling의 경우 거리 기반에 근거한 처리이므로, 스케일링이 먼저 된 경우 더 좋은 효과를 볼 수 있다.
어떻게 파라미터 그리드를 설계 해야 할까? - 파라미터 그리드
-
탐색을 제대로 하지 않을 경우 아래의 파라미터 그리드에 포함된 파라미터의 개수가 수십 ~ 수백만개가 되는 것이 다반사이다.
-
그러므로, 데이터 탐색 및 전처리를 확실히 한 후에 파라미터 그리드에서도 탐색을 확실히 해야 한다.
댓글남기기