본문 바로가기
반응형

BigData20

MAE / MSE / RMSE 차이와 선택 기준은? 회귀 분석에서 모델의 예측 정확도를 평가하기 위한 손실 함수(Loss Function)인MAE (Mean Absolute Error) / MSE (Mean Squared Error) / RMSE (Root Mean Squared Error) 의 차이점에 대하여 알아보겠습니다. MAE / MSE / RMSE의 대표적인 차이점은 오차를 계산하는 방식에 있습니다  1. MAE (Mean Absolute Error)MAE는 예측값과 실제값 사이의 절대 오차의 평균을 구하는 지표입니다. 장점: 이상치(Outlier)에 덜 민감합니다. 모든 오차를 절대값으로 계산하므로, 큰 오차가 있어도 직접적인 영향을 주지 않습니다.단점: 미분이 불가능한 점이 있어, 일부 최적화 알고리즘에서 사용이 어려울 수 있습니다. 2. M.. 2024. 11. 15.
빅분기_실기_OneHotEncoding후 predict()할때 발생하는 오류 OneHotEncoding을 할 때 pd.get_dummies()를 자주 쓰게 되는데 train에는 있고 test에는 없는 컬럼값이 있을 수 있다.그렇게 get_dummies()를 수행하면 컬럼의 개수가 달라져서 차후에 모델에 predict()를 할때 다음과 같은 오류가 발생한다, ValueError: Number of features of the model must match the input. 이런 경우를 방지하기위해 컬럼의 개수를 맞춰줘야하는데,아래와 같이 . reindex(columns =x_train.cloumns, fill_value=0 ) 를 수행해준다  x_train = pd.get_dummies(x_train)x_test = pd.get_dummies(x_test) x_test2 = x_.. 2024. 11. 13.
python을 이용한 머신러닝과 딥러닝은 뭐가 다를까? 안녕하세요, 오늘은 python을 이용한 머신러닝과 딥러닝에 차이점에 대해 알아보겠습니다. Python에서 Scikit-learn을 이용한 머신러닝과 TensorFlow를 이용한 딥러닝의 대표적인 차이는 크게 모델 구조, 데이터 요구 사항, 계산 비용, 코드 구현의 복잡성에서 드러납니다. 아래에 주요 차이점을 정리했습니다. 1. 모델 구조Scikit-learn (머신러닝): 대부분의 알고리즘이 선형 회귀, 결정 트리, K-최근접 이웃(KNN), 서포트 벡터 머신(SVM) 등 전통적인 머신러닝 알고리즘을 사용합니다. 이들은 일반적으로 구조가 간단하고 파라미터가 적은 편입니다.TensorFlow (딥러닝): 딥러닝은 다층 신경망을 활용하여 복잡한 문제를 해결합니다. 기본 구조는 신경망이고, 이미지 처리, 음.. 2024. 11. 12.
[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항 [ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항  분류인지 회귀인지 문제보고 파악하는 방법 -  종속변수[y] 기준으로  분류 분류형 성별[남/여], 질병여부[유/무], 구매여부[구매/비구매]  - accuracy_score / f1_score / roc_auc_score 회귀 수치형(연속형) / 가격,온도,수치 - RMSE, 결정계수 범주형 카이제곱통계량 - from scipy.stats import chi2_contingency t-test에 단일표본 / 가설검정 - from scipy.stats import ttest_1samp 두변수의 독립표본 - from scipy.stats import ttest_ind 대응표본 - from scipy.stats import ttest_rel 수치형 .. 2024. 11. 10.
ETL이란 무엇인가? 안녕하세요, 오늘은 ETL(Extract, Transform, Load)에 대하여 알아보겠습니다. 1. ETL 이란?ETL(Extract, Transform, Load)은 데이터를 DW나 DM에 적재하기 위해 거치는 과정으로, 각 단계를 좀 더 상세하게 설명하면 다음과 같습니다.1. 추출 (Extract)추출 단계에서는 데이터를 여러 원천 시스템에서 가져옵니다. 원천 데이터는 보통 다양한 형식과 구조로 존재하며, 예를 들어 관계형 데이터베이스, 로그 파일, 웹 애플리케이션, API, 또는 IoT 센서에서 생성된 데이터 등을 포함할 수 있습니다. 작업 내용:각 원천 시스템에 접근해 데이터를 가져오며, 이 때 SQL 쿼리, API 요청, 파일 읽기 등이 사용됩니다.실시간 또는 일정 주기에 맞춰 데이터를 가져.. 2024. 11. 9.
predict 와 predict_proba 의 차이는 무엇인가? 안녕하세요, 오늘은 머신러닝 모델에서 예측을 수행할 때 사용하는 메서드인 predict와 predict_proba의 차이에 대하여 알아보겠습니다. predict와 predict_proba는 각각 반환하는 결과가 다릅니다. 1. predict:predict는 모델이 예측한 클래스 레이블을 반환합니다.주로 분류 문제에서 사용하며, 예측된 샘플이 특정 클래스에 속할 확률이 가장 높은 클래스로 결정됩니다.예를 들어, 이진 분류 문제에서 모델이 샘플을 클래스 0 또는 클래스 1로 예측할 때, predict는 최종 예측된 클래스 (0 또는 1)를 반환합니다. 2. predict_probapredict_proba는 각 클래스에 대한 확률을 반환합니다.예측한 각 클래스의 확률 값이 포함된 배열을 반환하며, 이진 분류 .. 2024. 11. 8.
반응형

loading