반응형
안녕하세요, 개인 공부한 내용을 정리하는 게시글입니다.
머신러닝 핵심 개념 요약 정리 - Day_1
1. 모델 성능과 일반화: 과대적합 vs 과소적합
용어 | 설명 | 특징 | 판단 기준 |
과대적합 (Overfitting) | 훈련 세트에서는 매우 잘 맞지만 테스트 세트 성능이 낮음 | 훈련 성능 ▶ 테스트 성능 | R²(train) ≫ R²(test) |
과소적합 (Underfitting) | 모델이 데이터의 패턴을 잘 학습하지 못함 | 전체적으로 성능이 낮음 | R²(train) ≈ R²(test) 모두 낮음 or test > train |
적절한 학습 | 적당히 일반화된 모델 | 훈련 세트가 조금 더 높지만 큰 차이는 없음 | R²(train) > R²(test) (약간 높음) |
* R²: 결정계수. 회귀 모델의 예측력이 얼마나 좋은지를 나타내는 지표 (1에 가까울수록 좋음)
2. 회귀 모델 평가 지표
- mean_absolute_error(y_true, y_pred)
→ 평균 절대 오차 (MAE)
→ 예: 평균적으로 몇만큼 틀렸는지를 측정 - mean_squared_error(y_true, y_pred)
→ 평균 제곱 오차 (MSE)
→ 큰 오차를 더 크게 반영함 - score(X_test, y_test)
→ R² 결정계수 계산
3. K-최근접 이웃 회귀 (KNN Regression)
- 주변 K개의 이웃의 평균을 통해 예측
- 훈련 필요 없음 (fit()은 저장만)
- 매개변수: n_neighbors
4. 선형 회귀 (Linear Regression)
- 수식: y = 기울기 × x + 절편
- 사용법:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)
lr.predict(X_test)
lr.score(X_test, y_test)
print(lr.coef_) # 기울기(가중치)
print(lr.intercept_) # 절편
5. 분류 모델 예측 확률
- predict() → 클래스 예측
- predict_proba() → 클래스별 확률 반환
- 예: [0.25, 0.75] → 클래스 0: 25%, 클래스 1: 75%
- 클래스 순서는 알파벳 순 (model.classes_로 확인 가능)
6. 분류 문제에서 사용하는 함수
- 이진 분류: 시그모이드 함수 사용 → 출력 확률 (0~1)
- 다중 분류: 소프트맥스 함수 사용 → 각 클래스 확률 합 = 1
감사합니다.
반응형
'AI' 카테고리의 다른 글
[AI] 딥러닝 핵심 개념 요약 정리 (0) | 2025.06.06 |
---|---|
[AI] 머신러닝 핵심 개념 요약 정리 - Day_2 (1) | 2025.05.31 |
LangChain(랭체인)이란? (2) | 2025.03.22 |
청크(Chunk)와 임베딩 (Embedding)이란 (1) | 2025.03.10 |
[LLM]파인튜닝 (Fine-tuning)? RAG (Retrieval-Augmented Generation)? 무엇일까?? (1) | 2025.03.09 |