3. 데이터셋 만들기
2019.10.14
데이터셋 만들기 (데이터가 있다고 가정했을 때,) 데이터셋을 만드는 과정은 크게 두 단계로 나눌 수 있습니다. subsample split supsample은 갖고 있는 데이터에서 일부를 떼내는 작업입니다. 이 과정을 하는데는 두 가지 이유가 있습니다. 첫번째 이유는 데이터셋이 너무 큰 경우입니다. 학습할 수 있는 최고의 환경이 갖춰져 있다면 문제가 되지 않겠지만, 선행 연구의 단계에서는 일부의 데이터로 빠르게 다양한 모델과 파라미터를 시험해보는 것이 효과적입니다. 두번째 이유는 학습에 필요한 데이터만 사용하기 위함입니다. 학습에 필요 없거나, 방해가 되는 데이터들은 배제하는 것이 좋을 수 있습니다. 여기서 말하는 필요 없는 데이터는 column이나 feature를 의미합니다. 즉, 집값 예측을 위한 화..