본문 바로가기
AI

[AI] 머신러닝 핵심 개념 요약 정리 - Day_1

by Lcoding 2025. 5. 30.
반응형

 

안녕하세요, 개인 공부한 내용을 정리하는 게시글입니다.

 

머신러닝 핵심 개념 요약 정리 - Day_1

 

1. 모델 성능과 일반화: 과대적합 vs 과소적합

용어 설명 특징 판단 기준
과대적합 (Overfitting) 훈련 세트에서는 매우 잘 맞지만 테스트 세트 성능이 낮음 훈련 성능 ▶ 테스트 성능 R²(train) ≫ R²(test)
과소적합 (Underfitting) 모델이 데이터의 패턴을 잘 학습하지 못함 전체적으로 성능이 낮음 R²(train) ≈ R²(test) 모두 낮음 or test > train
적절한 학습 적당히 일반화된 모델 훈련 세트가 조금 더 높지만 큰 차이는 없음 R²(train) > R²(test) (약간 높음)
* R²: 결정계수. 회귀 모델의 예측력이 얼마나 좋은지를 나타내는 지표 (1에 가까울수록 좋음)

 

 

2. 회귀 모델 평가 지표

  • mean_absolute_error(y_true, y_pred)
    → 평균 절대 오차 (MAE)
    → 예: 평균적으로 몇만큼 틀렸는지를 측정
  • mean_squared_error(y_true, y_pred)
    → 평균 제곱 오차 (MSE)
    → 큰 오차를 더 크게 반영함
  • score(X_test, y_test)
    → R² 결정계수 계산

 

 3. K-최근접 이웃 회귀 (KNN Regression)

  • 주변 K개의 이웃의 평균을 통해 예측
  • 훈련 필요 없음 (fit()은 저장만)
  • 매개변수: n_neighbors

 

4. 선형 회귀 (Linear Regression)

  • 수식: y = 기울기 × x + 절편
  • 사용법:
     
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)
lr.predict(X_test)
lr.score(X_test, y_test)

print(lr.coef_)       # 기울기(가중치)
print(lr.intercept_)  # 절편

 

5. 분류 모델 예측 확률

  • predict() → 클래스 예측
  • predict_proba() → 클래스별 확률 반환
    • 예: [0.25, 0.75] → 클래스 0: 25%, 클래스 1: 75%
    • 클래스 순서는 알파벳 순 (model.classes_로 확인 가능)

 

 6. 분류 문제에서 사용하는 함수

  • 이진 분류: 시그모이드 함수 사용 → 출력 확률 (0~1)
  • 다중 분류: 소프트맥스 함수 사용 → 각 클래스 확률 합 = 1

 

감사합니다.

반응형

loading