본문 바로가기
BigData

GLM과 Logit의 차이점은?

by Lcoding 2024. 11. 25.
반응형

안녕하세요

 

오늘은 로지스틱 회귀분석할때 사용되는, GLM과 Logit의 차이점에 대하여 알아보겠습니다.

 

로지스틱 회귀분석에서 GLM(Generalized Linear Model)과 Logit은 유사한 목적으로 사용되지만,

이 둘은 주로 모델링 방식과 사용 목적의 차이에 따라 구분됩니다. 각각의 개념과 차이점은 다음과 같습니다.

 

 

1. GLM (Generalized Linear Model)

  • 개념 -  일반화 선형 모델(GLM)은 회귀 분석의 확장 형태로, 종속 변수의 분포가 정규 분포가 아니더라도 모델링할 수 있도록 설계되었습니다. 다양한 링크 함수(link function)와 확률 분포를 사용할 수 있는 유연한 모델입니다.

 

  • 로지스틱 회귀와의 관계 - 
    • GLM은 로지스틱 회귀를 포함한 더 일반적인 프레임워크입니다.
    • 로지스틱 회귀는 GLM에서 **로짓 함수(logit link)**와 **이항 분포(binomial distribution)**를 사용하는 특정한 경우입니다.

 

  • 구성 요소 - 
    1. 확률 분포: 종속 변수의 분포 (ex. 정규, 이항, 푸아송 등).
    2. 링크 함수: 독립 변수의 선형 조합(선형 예측값)을 종속 변수의 기대값에 매핑.
      • 로지스틱 회귀에서는 logit 링크를 사용.
    3. 선형 예측값: η=β0+β1x1+⋯+βpxp\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.

 

  • 장점 - 
    • 다양한 데이터 분포를 다룰 수 있는 유연성.
    • 로지스틱, 푸아송 회귀 등 여러 모델이 GLM의 일부로 통합됨.

 

  • 함수사용법 (Python) - 
from statsmodels.api import GLM

 

 

2. Logit

  • 개념 - Logit은 로지스틱 회귀의 보다 구체적인 구현입니다.
  • GLM이 아닌 최적화 문제로 정의된 로지스틱 회귀를 푸는 방식입니다.

 

  • 특징 -
    • 로지스틱 회귀를 바로 수행하는 전용 클래스 또는 함수.
    • 모델에서 종속 변수가 이항 분포를 가지며, 로짓 링크 함수만 지원.
    • GLM과 달리 확률 분포와 링크 함수를 변경할 수 없습니다.

 

  • 함수사용법  (Python) - 
     
from statsmodels.api import Logit

 

3. 선택 기준

  1. GLM 추천:
    • 링크 함수 또는 확률 분포를 조정해야 할 때.
    • 로지스틱 외 다른 일반화 선형 모델을 사용해야 할 때 (ex. 포아송 회귀).
  2. Logit 추천:
    • 단순 로지스틱 회귀를 수행할 때.
    • GLM의 유연성이 필요 없고, 빠르고 간단한 로지스틱 모델을 구축하려고 할 때.

 

 

추가내용 - 빅데이터분석기사 실기시험에서는 일반적으로 문제에서 잔차이탈도(deviance)를 구해야될때에는 GLM을 사용하고 그렇지 않은 경우에는 Logit를 사용하는 것 같습니다. 

 

반응형

# 로딩 화면 동작 코드(Code) 설정하기
loading