본문 바로가기
반응형

분류 전체보기211

[ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항 [ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항  분류인지 회귀인지 문제보고 파악하는 방법 -  종속변수[y] 기준으로  분류 분류형 성별[남/여], 질병여부[유/무], 구매여부[구매/비구매]  - accuracy_score / f1_score / roc_auc_score 회귀 수치형(연속형) / 가격,온도,수치 - RMSE, 결정계수 범주형 카이제곱통계량 - from scipy.stats import chi2_contingency t-test에 단일표본 / 가설검정 - from scipy.stats import ttest_1samp 두변수의 독립표본 - from scipy.stats import ttest_ind 대응표본 - from scipy.stats import ttest_rel 수치형 .. 2024. 11. 10.
ETL이란 무엇인가? 안녕하세요, 오늘은 ETL(Extract, Transform, Load)에 대하여 알아보겠습니다. 1. ETL 이란?ETL(Extract, Transform, Load)은 데이터를 DW나 DM에 적재하기 위해 거치는 과정으로, 각 단계를 좀 더 상세하게 설명하면 다음과 같습니다.1. 추출 (Extract)추출 단계에서는 데이터를 여러 원천 시스템에서 가져옵니다. 원천 데이터는 보통 다양한 형식과 구조로 존재하며, 예를 들어 관계형 데이터베이스, 로그 파일, 웹 애플리케이션, API, 또는 IoT 센서에서 생성된 데이터 등을 포함할 수 있습니다. 작업 내용:각 원천 시스템에 접근해 데이터를 가져오며, 이 때 SQL 쿼리, API 요청, 파일 읽기 등이 사용됩니다.실시간 또는 일정 주기에 맞춰 데이터를 가져.. 2024. 11. 9.
predict 와 predict_proba 의 차이는 무엇인가? 안녕하세요, 오늘은 머신러닝 모델에서 예측을 수행할 때 사용하는 메서드인 predict와 predict_proba의 차이에 대하여 알아보겠습니다. predict와 predict_proba는 각각 반환하는 결과가 다릅니다. 1. predict:predict는 모델이 예측한 클래스 레이블을 반환합니다.주로 분류 문제에서 사용하며, 예측된 샘플이 특정 클래스에 속할 확률이 가장 높은 클래스로 결정됩니다.예를 들어, 이진 분류 문제에서 모델이 샘플을 클래스 0 또는 클래스 1로 예측할 때, predict는 최종 예측된 클래스 (0 또는 1)를 반환합니다. 2. predict_probapredict_proba는 각 클래스에 대한 확률을 반환합니다.예측한 각 클래스의 확률 값이 포함된 배열을 반환하며, 이진 분류 .. 2024. 11. 8.
OneHotEncoding시에 OneHotEncoding.fit()과 df.get_dummies()의 차이는? 안녕하세요, 오늘은 OneHotEncoding시에 사용하는 OneHotEncoding.fit()과 df.get_dummies()의 차이에 대하여 알아보겠습니다. OneHotEncoder와 pd.get_dummies()는 모두 데이터를 원-핫 인코딩하기 위한 도구지만, 용도와 세부적인 기능에서 차이가 있습니다.  1. 라이브러리와 사용 목적OneHotEncoder: scikit-learn의 OneHotEncoder는 주로 머신러닝 모델 학습에 필요한 데이터 전처리에서 사용됩니다. 이를 통해 변환한 데이터를 바로 scikit-learn 모델에 사용할 수 있는 형식으로 만들어 줍니다.pd.get_dummies: pandas의 get_dummies()는 주로 데이터프레임에서 범주형 데이터를 쉽게 인코딩하기 위해.. 2024. 11. 7.
LabelEncoder와 OneHotEncoder의 차이는 무엇일까? 안녕하세요, 오늘은 LabelEncoder와 OneHotEncoder의 차이에 대하여 알아보겠습니다. LabelEncoder와 OneHotEncoder는 모두 범주형(object) 데이터를 수치형 데이터로 변환할 때 사용하는 인코딩 도구지만,사용 용도가 약간 다릅니다. 1. LabelEncoder개요 - LabelEncoder는 범주형 데이터의 각 값을 고유한 숫자(Label)로 변환합니다. 예를 들어, 'Red', 'Blue', 'Green'이라는 세 개의 카테고리가 있으면, 각각 0, 1, 2로 인코딩됩니다. 사용 용도 - 데이터의 카테고리 간에 순서가 있거나, 특정한 모델(예: 트리 기반 모델)에서는 숫자 자체가 의미를 가지지 않기 때문에, 고유한 숫자만 있으면 되는 경우 사용합니다. 예시 -'소형.. 2024. 11. 5.
빅데이터분석기사) 빅분기 실기 체험 제2유형 안녕하세요 오늘은 빅데이터분석기사 실기시험에 대비하여 빅분기 실기 체험 제2유형을 풀어보겠습니다.  https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/4 구름EDU - 모두를 위한 맞춤형 IT교육구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/edu.goorm.io  위 URL로 접속하여 체험이 가능합니다. 문제 풀이 및 주석은 아래와 같습니다.  i.. 2024. 11. 1.
반응형

loading