반응형
OneHotEncoding을 할 때 pd.get_dummies()를 자주 쓰게 되는데 train에는 있고 test에는 없는 컬럼값이 있을 수 있다.
그렇게 get_dummies()를 수행하면 컬럼의 개수가 달라져서 차후에 모델에 predict()를 할때 다음과 같은 오류가 발생한다,
ValueError: Number of features of the model must match the input.
이런 경우를 방지하기위해 컬럼의 개수를 맞춰줘야하는데,
아래와 같이 . reindex(columns =x_train.cloumns, fill_value=0 ) 를 수행해준다
x_train = pd.get_dummies(x_train)
x_test = pd.get_dummies(x_test)
x_test2 = x_test.reindex(columns =x_train.cloumns, fill_value=0)
반응형
'BigData' 카테고리의 다른 글
ROC_AUC_Score / Accuracy / F1 Score의 차이와 선택 기준 (1) | 2024.11.16 |
---|---|
MAE / MSE / RMSE 차이와 선택 기준은? (2) | 2024.11.15 |
python을 이용한 머신러닝과 딥러닝은 뭐가 다를까? (2) | 2024.11.12 |
[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항 (0) | 2024.11.10 |
ETL이란 무엇인가? (4) | 2024.11.09 |