본문 바로가기
BigData

[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항

by Lcoding 2024. 11. 10.
반응형

[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항

 

 

분류인지 회귀인지 문제보고 파악하는 방법 - 
종속변수[y] 기준으로 
분류 분류형 성별[남/여], 질병여부[유/무], 구매여부[구매/비구매]  - accuracy_score / f1_score / roc_auc_score
회귀 수치형(연속형) / 가격,온도,수치 - RMSE, 결정계수


범주형 카이제곱통계량 -
from scipy.stats import chi2_contingency

t-test에 단일표본 / 가설검정 -
from scipy.stats import ttest_1samp

두변수의 독립표본 -
from scipy.stats import ttest_ind

대응표본 -
from scipy.stats import ttest_rel

수치형 카이제곱통계량 -
from scipy.stats import chisquare

로지스틱 회귀모형 - 
from statsmodels.api import Logit

선형 회귀 -
from statsmodels.api import OLS



# 패키지로부터 클래스, 함수를 호출
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc

 

라벨이 필요한 경우

model_rf.predict(X_test)

 

비율이 필요한 경우
model_rf.predict_proba(X_test)[:,1]



1.지도학습모형
분류는 RandomForestClassifier을 사용하며 , 
1) roc_curve()와 auc를 이용하여 AUC를 구한다.
2) f1-score를 이용하여 macro f1-score를 구한다.

회귀는 RandomForestRegressor을 사용하며,
1) mean_squared_error 을 사용하여 rmse를 구한다.

 


2.군집분석
1) rand_score와 adjusted_rand_score를 이용하여 RI와 ARI를 구한다.
2) silhouette_score와 silhouette_samples를 이용하여 전체 실루엣평균과 개체별 실루엣 계수를 구한다.

반응형

# 로딩 화면 동작 코드(Code) 설정하기
loading