본문 바로가기
BigData

MinMaxScaler과 StandardScaler는 언제 사용할까?

by Lcoding 2024. 10. 30.
반응형

안녕하세요, 오늘은 수치형 스케일러인 MinMaxScaler와 StandardScaler에 대하여 알아보겠습니다.

 

MinMaxScaler와 StandardScaler는 데이터의 스케일을 조정해주는 두 가지 대표적인 방법으로, 데이터의 특성과 분석 목적에 따라 선택적으로 사용됩니다.

 

1. MinMaxScaler

  • 특징: 데이터의 최소값을 0, 최대값을 1로 변환해 모든 값이 0에서 1 사이에 위치하도록 스케일링합니다.
  • 장점: 값이 일정한 범위 내에 존재하게 되므로 특정 값 범위가 필요한 알고리즘(예: 이미지 처리를 위한 신경망)이나 거리 기반 알고리즘(예: K-Nearest Neighbors)에서 유용합니다.
  • 사용처:
    • 데이터의 분포가 특정 범위 안에 있도록 제약해야 하는 경우.
    • 최대값과 최소값의 차이가 큰 변수를 사용할 때, 스케일링 후 값의 범위를 제한할 필요가 있을 때.
    • 비율을 계산하거나 상대적인 크기가 중요한 경우에도 적합합니다.

 

 

2. StandardScaler

  • 특징: 데이터를 평균 0, 표준편차 1로 변환해 표준 정규 분포에 가깝게 만듭니다. 데이터의 분포가 정규 분포에 가까울 때 더 효과적입니다.
  • 장점: 평균을 기준으로 데이터를 중심화하고, 각 값이 표준편차에 맞춰 조정되므로 데이터가 중심을 기준으로 고르게 분포되도록 합니다.
  • 사용처:
    • 데이터가 정규 분포에 가까운 경우나 정규성 가정이 필요한 알고리즘 (예: 선형 회귀, 로지스틱 회귀, SVM).
    • 거리 기반 알고리즘(K-Nearest Neighbors, K-Means)에서 변수 간 스케일 차이를 줄여야 할 때.
    • 변수의 값이 매우 크거나 분포가 불균형한 경우 데이터의 중심과 표준 편차를 일정하게 맞추어야 할 때.

 

 - 정리 - 

  • MinMaxScaler는 값의 절대적인 범위가 중요한 경우에 사용하고, StandardScaler는 값의 분포와 상대적인 스케일 차이를 조정해야 할 때 사용합니다.
반응형

# 로딩 화면 동작 코드(Code) 설정하기
loading