반응형
안녕하세요, 오늘은 수치형 스케일러인 MinMaxScaler와 StandardScaler에 대하여 알아보겠습니다.
MinMaxScaler와 StandardScaler는 데이터의 스케일을 조정해주는 두 가지 대표적인 방법으로, 데이터의 특성과 분석 목적에 따라 선택적으로 사용됩니다.
1. MinMaxScaler
- 특징: 데이터의 최소값을 0, 최대값을 1로 변환해 모든 값이 0에서 1 사이에 위치하도록 스케일링합니다.
- 장점: 값이 일정한 범위 내에 존재하게 되므로 특정 값 범위가 필요한 알고리즘(예: 이미지 처리를 위한 신경망)이나 거리 기반 알고리즘(예: K-Nearest Neighbors)에서 유용합니다.
- 사용처:
- 데이터의 분포가 특정 범위 안에 있도록 제약해야 하는 경우.
- 최대값과 최소값의 차이가 큰 변수를 사용할 때, 스케일링 후 값의 범위를 제한할 필요가 있을 때.
- 비율을 계산하거나 상대적인 크기가 중요한 경우에도 적합합니다.
2. StandardScaler
- 특징: 데이터를 평균 0, 표준편차 1로 변환해 표준 정규 분포에 가깝게 만듭니다. 데이터의 분포가 정규 분포에 가까울 때 더 효과적입니다.
- 장점: 평균을 기준으로 데이터를 중심화하고, 각 값이 표준편차에 맞춰 조정되므로 데이터가 중심을 기준으로 고르게 분포되도록 합니다.
- 사용처:
- 데이터가 정규 분포에 가까운 경우나 정규성 가정이 필요한 알고리즘 (예: 선형 회귀, 로지스틱 회귀, SVM).
- 거리 기반 알고리즘(K-Nearest Neighbors, K-Means)에서 변수 간 스케일 차이를 줄여야 할 때.
- 변수의 값이 매우 크거나 분포가 불균형한 경우 데이터의 중심과 표준 편차를 일정하게 맞추어야 할 때.
- 정리 -
- MinMaxScaler는 값의 절대적인 범위가 중요한 경우에 사용하고, StandardScaler는 값의 분포와 상대적인 스케일 차이를 조정해야 할 때 사용합니다.
반응형
'BigData' 카테고리의 다른 글
OneHotEncoding시에 OneHotEncoding.fit()과 df.get_dummies()의 차이는? (0) | 2024.11.07 |
---|---|
LabelEncoder와 OneHotEncoder의 차이는 무엇일까? (1) | 2024.11.05 |
빅데이터분석기사) 빅분기 실기 체험 제2유형 (0) | 2024.11.01 |
train_test_split의 파라미터에서 stratify는 언제 사용할까? (1) | 2024.11.01 |
roc_curve와 roc_auc_score는 각각 언제 사용할까? (1) | 2024.10.31 |