데이터 과학 프로젝트의 성공은 효과적인 데이터 전처리와 모델 튜닝에 달려 있습니다. 이 글에서는 실무자가 반드시 알아야 할 전처리 단계와 모델 튜닝 전략을 소개합니다. 전처리의 중요성과 함께, 모델 성능을 극대화하는 파라미터 그리드 설계 방법을 배워보세요.

주요내용

  • 데이터 전처리와 모델 튜닝은 🔄 피드백 루프를 통해 반복적으로 개선됩니다.
  • 필수 전처리 절차는 🛠️ 순차적으로 진행하며, 특별한 하이퍼 파라미터 튜닝이 필요하지 않습니다.
  • 성능 향상을 위한 전처리는 🎛️ 튜닝을 필요로 하며, 모델의 성능에 큰 영향을 미칩니다.

실제 데이터 탐색과 전처리

image

  • 데이터 탐색과 전처리는 결코 한 번에 끝나지 않습니다. (피드백 루프가 존재합니다)

  • 보통은 탐색 한 번에 전처리 한 번입니다.

  • 전처리마다 다양한 하이퍼 파라미터가 있어서 그 결과에 따라 모델 하이퍼 파라미터와 같이 튜닝해줘야 합니다.

현실적인 모델 생성 프로세스 (1) - 필수 전처리


  • 필수 전처리는 데이터 통합, 결측치 처리, 범주형 변수 처리, 라벨 처리 등이 있다.

  • 일반적으로 필수적인 전처리는 특별한 하이퍼 파라미터 튜닝이 필요하지 않으므로 순차적으로 진행해주는게 좋다.

image


  • 1) 파편화된 데이터가 있다면 통합 (하나의 df만들기)

  • 2) 통합된 df에서 결측치 확인 후 제거 / 대체 / 예측 (3옵션중 선택해야 하므로 어느정도 튜닝이 필요하긴 함)

  • 3) 범주형 변수 여부 확인 -> 있을 경우 더미화 / 연속형 변수로 변환 처리

  • 4) 라벨이 문자형인지 확인 -> 변환 작업

  • 4번 작업은 1번 바로 다음에 해도 된다.


현실적인 모델 생성 프로세스 (2) - 성능 향상을 위한 전처리


  • 관련된 전처리에는 변수 분포, 클래스 불균형, 특징 선택 등이 있다.

  • 일반적으로는 성능 향상을 위한 전처리는 튜닝도 같이 해줘야 한다.

image


  • 신규 특징 추가(파생변수 생성)시에는 가급적 많은 특징을 추가하면 모델 성능 향상에 도움이 될 가능성이 높다.

    • 추후에 특징선택 전처리로 차원 축소를 해줄 것이기 때문에 부담없이 추가해도 된다.

    • 물론 합리적인 판단하에 적절한 변수를 추가해야 한다.

    • 해당 작업을 통해 이전 과정으로 돌아가는 피드백 루프를 줄일 수 있다는 장점이 있기도 하다.

  • 이상치 확인과 특징간 상관관계 확인은 실무에서 많이 스킵하는 구간이다.

    • 이상치를 제거한다고 반드시 모델 성능이 향상되지는 않는다. (경우에 따라 보전하는 것이 더 좋을 때도 있음)

    • 특징간 상관성이 있을 때 모델에 영향을 받는 모델이 있고, 그렇지 않은 모델이 있기 때문.

    • 즉 특정 변수들이 특징간 상관관계가 크다면, 상관성에 영향을 받지 않는 모델로 바꾸면 된다.

  • 별표 표시가 된 부분은 값을 어떻게 전처리하느냐에 따라 모델 성능에 크게 영향을 미칠 수 있는 전처리들이다.(튜닝을 반드시 해줘야 함)

  • 스케일링을 한 후에 클래스 불균형을 확인한다.

    • Resampling의 경우 거리 기반에 근거한 처리이므로, 스케일링이 먼저 된 경우 더 좋은 효과를 볼 수 있다.

어떻게 파라미터 그리드를 설계 해야 할까? - 파라미터 그리드


  • 탐색을 제대로 하지 않을 경우 아래의 파라미터 그리드에 포함된 파라미터의 개수가 수십 ~ 수백만개가 되는 것이 다반사이다.

  • 그러므로, 데이터 탐색 및 전처리를 확실히 한 후에 파라미터 그리드에서도 탐색을 확실히 해야 한다.


image

댓글남기기