이번에 데이콘을 진행하면서 제공되는 Train set, Test set으로 머신러닝을 수행했는데, 데이터셋에 대한 고민을 많이 했다. 근데 이번 학습 데이터셋은 2880 col X 598 row 형태로 features는 매ㅐㅐㅐ우 많은데 데이터 양은 절대적으로 적었다ㅜㅜ 그리고 multi-classfication이라 레이블이 3개인데 굉장히 불균형했다,,,, 그래서 학습 데이터셋을 이용해서 검증 데이터셋 (validatation set)을 구성할 때 좀 더 유의해야하는 부분이 존재했다. sklearn에서는 K-Fold CV (Cross Validation)을 구현하기 위한 2가지 클래스인 KFold와 stratifiedKFold가 제공된다. 우선 K-Fold CV란, 데이터셋을 K개의 fold로 분리해서..