[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항
분류인지 회귀인지 문제보고 파악하는 방법 -
종속변수[y] 기준으로
분류 분류형 성별[남/여], 질병여부[유/무], 구매여부[구매/비구매] - accuracy_score / f1_score / roc_auc_score
회귀 수치형(연속형) / 가격,온도,수치 - RMSE, 결정계수
범주형 카이제곱통계량 -
from scipy.stats import chi2_contingency
t-test에 단일표본 / 가설검정 -
from scipy.stats import ttest_1samp
두변수의 독립표본 -
from scipy.stats import ttest_ind
대응표본 -
from scipy.stats import ttest_rel
수치형 카이제곱통계량 -
from scipy.stats import chisquare
로지스틱 회귀모형 -
from statsmodels.api import Logit
선형 회귀 -
from statsmodels.api import OLS
# 패키지로부터 클래스, 함수를 호출
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc
라벨이 필요한 경우
model_rf.predict(X_test)
비율이 필요한 경우
model_rf.predict_proba(X_test)[:,1]
1.지도학습모형
분류는 RandomForestClassifier을 사용하며 ,
1) roc_curve()와 auc를 이용하여 AUC를 구한다.
2) f1-score를 이용하여 macro f1-score를 구한다.
회귀는 RandomForestRegressor을 사용하며,
1) mean_squared_error 을 사용하여 rmse를 구한다.
2.군집분석
1) rand_score와 adjusted_rand_score를 이용하여 RI와 ARI를 구한다.
2) silhouette_score와 silhouette_samples를 이용하여 전체 실루엣평균과 개체별 실루엣 계수를 구한다.
'BigData' 카테고리의 다른 글
빅분기_실기_OneHotEncoding후 predict()할때 발생하는 오류 (1) | 2024.11.13 |
---|---|
python을 이용한 머신러닝과 딥러닝은 뭐가 다를까? (2) | 2024.11.12 |
ETL이란 무엇인가? (4) | 2024.11.09 |
predict 와 predict_proba 의 차이는 무엇인가? (0) | 2024.11.08 |
OneHotEncoding시에 OneHotEncoding.fit()과 df.get_dummies()의 차이는? (0) | 2024.11.07 |