반응형
안녕하세요
오늘은 로지스틱 회귀분석할때 사용되는, GLM과 Logit의 차이점에 대하여 알아보겠습니다.
로지스틱 회귀분석에서 GLM(Generalized Linear Model)과 Logit은 유사한 목적으로 사용되지만,
이 둘은 주로 모델링 방식과 사용 목적의 차이에 따라 구분됩니다. 각각의 개념과 차이점은 다음과 같습니다.
1. GLM (Generalized Linear Model)
- 개념 - 일반화 선형 모델(GLM)은 회귀 분석의 확장 형태로, 종속 변수의 분포가 정규 분포가 아니더라도 모델링할 수 있도록 설계되었습니다. 다양한 링크 함수(link function)와 확률 분포를 사용할 수 있는 유연한 모델입니다.
- 로지스틱 회귀와의 관계 -
- GLM은 로지스틱 회귀를 포함한 더 일반적인 프레임워크입니다.
- 로지스틱 회귀는 GLM에서 **로짓 함수(logit link)**와 **이항 분포(binomial distribution)**를 사용하는 특정한 경우입니다.
- 구성 요소 -
- 확률 분포: 종속 변수의 분포 (ex. 정규, 이항, 푸아송 등).
- 링크 함수: 독립 변수의 선형 조합(선형 예측값)을 종속 변수의 기대값에 매핑.
- 로지스틱 회귀에서는 logit 링크를 사용.
- 선형 예측값: η=β0+β1x1+⋯+βpxp\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.
- 장점 -
- 다양한 데이터 분포를 다룰 수 있는 유연성.
- 로지스틱, 푸아송 회귀 등 여러 모델이 GLM의 일부로 통합됨.
- 함수사용법 (Python) -
from statsmodels.api import GLM
2. Logit
- 개념 - Logit은 로지스틱 회귀의 보다 구체적인 구현입니다.
- GLM이 아닌 최적화 문제로 정의된 로지스틱 회귀를 푸는 방식입니다.
- 특징 -
- 로지스틱 회귀를 바로 수행하는 전용 클래스 또는 함수.
- 모델에서 종속 변수가 이항 분포를 가지며, 로짓 링크 함수만 지원.
- GLM과 달리 확률 분포와 링크 함수를 변경할 수 없습니다.
- 함수사용법 (Python) -
from statsmodels.api import Logit
3. 선택 기준
- GLM 추천:
- 링크 함수 또는 확률 분포를 조정해야 할 때.
- 로지스틱 외 다른 일반화 선형 모델을 사용해야 할 때 (ex. 포아송 회귀).
- Logit 추천:
- 단순 로지스틱 회귀를 수행할 때.
- GLM의 유연성이 필요 없고, 빠르고 간단한 로지스틱 모델을 구축하려고 할 때.
추가내용 - 빅데이터분석기사 실기시험에서는 일반적으로 문제에서 잔차이탈도(deviance)를 구해야될때에는 GLM을 사용하고 그렇지 않은 경우에는 Logit를 사용하는 것 같습니다.
반응형
'BigData' 카테고리의 다른 글
네이버의 검색 API 및 네이버 데이터랩 API 사용 방법에 대하여 알아보자 (0) | 2025.02.25 |
---|---|
대형 언어 모델(LLM) 및 NLP 대표 분석 기법에 대하여 알아보자. (2) | 2025.02.21 |
빅데이터 분석기사 _3유형 정리 (1) | 2024.11.21 |
numpy의 concatenate() 함수를 사용할때 zero-dimensional arrays cannot be concatenated 오류 (1) | 2024.11.17 |
ROC_AUC_Score / Accuracy / F1 Score의 차이와 선택 기준 (1) | 2024.11.16 |