티스토리

암자의 코딩생활
검색하기

블로그 홈

암자의 코딩생활

lcoding.tistory.com/m

코딩 기술 블로그

구독자
2
방명록 방문하기
공지 안녕하세요. 4년차 자바 웹 개발자로⋯ 모두보기
반응형

주요 글 목록

  • 네이버의 검색 API 및 네이버 데이터랩 API 사용 방법에 대하여 알아보자 안녕하세요.오늘은 네이버의 검색 API 및 네이버 데이터랩 API를 사용하는 방법에 대하여 알아보겠습니다. 네이버 개발자 센터 - https://developers.naver.com/main/ NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음developers.naver.com 네이버 개발자 센터 페이지에서 로그인하면 여러가지 API를 지원 받을 수 있습니다. 해당 사이트에서 애플리케이션 등록 → 내 애플리케이션 (등록한 해당 애플리케이션 선택) →API설정 → 사용 API → 사용할 API를 등록합니다.  API 리스트네.. 공감수 0 댓글수 0 2025. 2. 25.
  • 대형 언어 모델(LLM) 및 NLP 대표 분석 기법에 대하여 알아보자. 안녕하세요. 오늘은 대형 언어 모델(LLM) 및 NLP 대표 분석 기법에 대하여 알아보겠습니다.  1. 대형 언어 모델(LLM)의 정의정의:대형 언어 모델은 방대한 양의 텍스트 데이터를 학습하여 언어의 패턴, 문맥, 의미를 이해하고 생성할 수 있는 딥러닝 모델입니다.아키텍처: 주로 Transformer 기반으로 구성되어 있으며, self-attention 메커니즘을 통해 복잡한 언어 표현을 학습합니다.예시: GPT, BERT, T5 등이 있습니다.특징:다양한 NLP 태스크(번역, 요약, 질문 응답, 감성 분석 등)를 하나의 모델로 수행할 수 있습니다.사전 학습 후 특정 태스크에 대해 미세 조정(fine-tuning)을 진행하여 높은 성능을 발휘합니다. 2. LLM을 활용한 대표 NLP 분석 기법2_1. .. 공감수 1 댓글수 2 2025. 2. 21.
  • GLM과 Logit의 차이점은? 안녕하세요 오늘은 로지스틱 회귀분석할때 사용되는, GLM과 Logit의 차이점에 대하여 알아보겠습니다. 로지스틱 회귀분석에서 GLM(Generalized Linear Model)과 Logit은 유사한 목적으로 사용되지만,이 둘은 주로 모델링 방식과 사용 목적의 차이에 따라 구분됩니다. 각각의 개념과 차이점은 다음과 같습니다.  1. GLM (Generalized Linear Model)개념 -  일반화 선형 모델(GLM)은 회귀 분석의 확장 형태로, 종속 변수의 분포가 정규 분포가 아니더라도 모델링할 수 있도록 설계되었습니다. 다양한 링크 함수(link function)와 확률 분포를 사용할 수 있는 유연한 모델입니다. 로지스틱 회귀와의 관계 - GLM은 로지스틱 회귀를 포함한 더 일반적인 프레임워크입니.. 공감수 0 댓글수 0 2024. 11. 25.
  • 빅데이터 분석기사 _3유형 정리 빅데이터 분석기사 _ 3유형 정리# 단일 표본 t-검정.from scipy.stats import ttest_1sampt_stat, p_value = ttest_1samp(sample, popmean)# 독립 표본 t-검정.from scipy.stats import ttest_indt_stat, p_value = ttest_ind(group1, group2)# 대응 표본 t-검정.from scipy.stats import ttest_relt_stat, p_value = ttest_rel(before, after)# Shapiro-Wilk 정규성 검정.from scipy.stats import shapirostat, p = shapiro(data)# Levene의 등분산 검정.from scipy.stat.. 공감수 1 댓글수 1 2024. 11. 21.
  • numpy의 concatenate() 함수를 사용할때 zero-dimensional arrays cannot be concatenated 오류 안녕하세요. 오늘은 numpy의 concatenate() 함수를 사용할때,zero-dimensional arrays cannot be concatenated 오류가 발생하는 경우에 대하여 알아보겠습니다.   ---  OneHotEncoder ---from sklearn.preprocessing import OneHotEncoderX_TRAIN = X_TRAIN.select_dtypes('object').copy()X_VAL = X_VAL.select_dtypes('object').copy()X_TEST = X_test.select_dtypes('object').copy()enc = OneHotEncoder().fit( X_TRAIN )X_TRAIN_OHE = enc.transform( X_TRAIN)X_.. 공감수 0 댓글수 1 2024. 11. 17.
  • ROC_AUC_Score / Accuracy / F1 Score의 차이와 선택 기준 안녕하세요, roc_auc_score / accuracy / f1_score의 차이와 선택 기준에 대하여 알아보겠습니다. roc_auc_score, accuracy, f1_score는 모두 모델의 성능을 평가하는 지표지만,평가하는 관점과 사용하는 상황이 다릅니다.  1. ROC_AUC_Score (Receiver Operating Characteristic - Area Under the Curve) ROC AUC는 이진 분류 모델에서 주로 사용되는 성능 지표로, 모델의 분류 성능을 종합적으로 평가합니다. ROC 곡선: 모델의 **참 양성 비율 (True Positive Rate, TPR)**과 **거짓 양성 비율 (False Positive Rate, FPR)**을 각각 y축과 x축에 나타낸 그래프입니다.. 공감수 1 댓글수 1 2024. 11. 16.
  • MAE / MSE / RMSE 차이와 선택 기준은? 회귀 분석에서 모델의 예측 정확도를 평가하기 위한 손실 함수(Loss Function)인MAE (Mean Absolute Error) / MSE (Mean Squared Error) / RMSE (Root Mean Squared Error) 의 차이점에 대하여 알아보겠습니다. MAE / MSE / RMSE의 대표적인 차이점은 오차를 계산하는 방식에 있습니다  1. MAE (Mean Absolute Error)MAE는 예측값과 실제값 사이의 절대 오차의 평균을 구하는 지표입니다. 장점: 이상치(Outlier)에 덜 민감합니다. 모든 오차를 절대값으로 계산하므로, 큰 오차가 있어도 직접적인 영향을 주지 않습니다.단점: 미분이 불가능한 점이 있어, 일부 최적화 알고리즘에서 사용이 어려울 수 있습니다. 2. M.. 공감수 2 댓글수 2 2024. 11. 15.
  • 빅분기_실기_OneHotEncoding후 predict()할때 발생하는 오류 OneHotEncoding을 할 때 pd.get_dummies()를 자주 쓰게 되는데 train에는 있고 test에는 없는 컬럼값이 있을 수 있다.그렇게 get_dummies()를 수행하면 컬럼의 개수가 달라져서 차후에 모델에 predict()를 할때 다음과 같은 오류가 발생한다, ValueError: Number of features of the model must match the input. 이런 경우를 방지하기위해 컬럼의 개수를 맞춰줘야하는데,아래와 같이 . reindex(columns =x_train.cloumns, fill_value=0 ) 를 수행해준다  x_train = pd.get_dummies(x_train)x_test = pd.get_dummies(x_test) x_test2 = x_.. 공감수 1 댓글수 1 2024. 11. 13.
  • python을 이용한 머신러닝과 딥러닝은 뭐가 다를까? 안녕하세요, 오늘은 python을 이용한 머신러닝과 딥러닝에 차이점에 대해 알아보겠습니다. Python에서 Scikit-learn을 이용한 머신러닝과 TensorFlow를 이용한 딥러닝의 대표적인 차이는 크게 모델 구조, 데이터 요구 사항, 계산 비용, 코드 구현의 복잡성에서 드러납니다. 아래에 주요 차이점을 정리했습니다. 1. 모델 구조Scikit-learn (머신러닝): 대부분의 알고리즘이 선형 회귀, 결정 트리, K-최근접 이웃(KNN), 서포트 벡터 머신(SVM) 등 전통적인 머신러닝 알고리즘을 사용합니다. 이들은 일반적으로 구조가 간단하고 파라미터가 적은 편입니다.TensorFlow (딥러닝): 딥러닝은 다층 신경망을 활용하여 복잡한 문제를 해결합니다. 기본 구조는 신경망이고, 이미지 처리, 음.. 공감수 1 댓글수 2 2024. 11. 12.
  • [ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항 [ 개인 기록용 ] 빅데이터분석기사 실기 관련 정리 사항  분류인지 회귀인지 문제보고 파악하는 방법 -  종속변수[y] 기준으로  분류 분류형 성별[남/여], 질병여부[유/무], 구매여부[구매/비구매]  - accuracy_score / f1_score / roc_auc_score 회귀 수치형(연속형) / 가격,온도,수치 - RMSE, 결정계수 범주형 카이제곱통계량 - from scipy.stats import chi2_contingency t-test에 단일표본 / 가설검정 - from scipy.stats import ttest_1samp 두변수의 독립표본 - from scipy.stats import ttest_ind 대응표본 - from scipy.stats import ttest_rel 수치형 .. 공감수 0 댓글수 0 2024. 11. 10.
  • ETL이란 무엇인가? 안녕하세요, 오늘은 ETL(Extract, Transform, Load)에 대하여 알아보겠습니다. 1. ETL 이란?ETL(Extract, Transform, Load)은 데이터를 DW나 DM에 적재하기 위해 거치는 과정으로, 각 단계를 좀 더 상세하게 설명하면 다음과 같습니다.1. 추출 (Extract)추출 단계에서는 데이터를 여러 원천 시스템에서 가져옵니다. 원천 데이터는 보통 다양한 형식과 구조로 존재하며, 예를 들어 관계형 데이터베이스, 로그 파일, 웹 애플리케이션, API, 또는 IoT 센서에서 생성된 데이터 등을 포함할 수 있습니다. 작업 내용:각 원천 시스템에 접근해 데이터를 가져오며, 이 때 SQL 쿼리, API 요청, 파일 읽기 등이 사용됩니다.실시간 또는 일정 주기에 맞춰 데이터를 가져.. 공감수 3 댓글수 4 2024. 11. 9.
  • predict 와 predict_proba 의 차이는 무엇인가? 안녕하세요, 오늘은 머신러닝 모델에서 예측을 수행할 때 사용하는 메서드인 predict와 predict_proba의 차이에 대하여 알아보겠습니다. predict와 predict_proba는 각각 반환하는 결과가 다릅니다. 1. predict:predict는 모델이 예측한 클래스 레이블을 반환합니다.주로 분류 문제에서 사용하며, 예측된 샘플이 특정 클래스에 속할 확률이 가장 높은 클래스로 결정됩니다.예를 들어, 이진 분류 문제에서 모델이 샘플을 클래스 0 또는 클래스 1로 예측할 때, predict는 최종 예측된 클래스 (0 또는 1)를 반환합니다. 2. predict_probapredict_proba는 각 클래스에 대한 확률을 반환합니다.예측한 각 클래스의 확률 값이 포함된 배열을 반환하며, 이진 분류 .. 공감수 0 댓글수 0 2024. 11. 8.
  • OneHotEncoding시에 OneHotEncoding.fit()과 df.get_dummies()의 차이는? 안녕하세요, 오늘은 OneHotEncoding시에 사용하는 OneHotEncoding.fit()과 df.get_dummies()의 차이에 대하여 알아보겠습니다. OneHotEncoder와 pd.get_dummies()는 모두 데이터를 원-핫 인코딩하기 위한 도구지만, 용도와 세부적인 기능에서 차이가 있습니다.  1. 라이브러리와 사용 목적OneHotEncoder: scikit-learn의 OneHotEncoder는 주로 머신러닝 모델 학습에 필요한 데이터 전처리에서 사용됩니다. 이를 통해 변환한 데이터를 바로 scikit-learn 모델에 사용할 수 있는 형식으로 만들어 줍니다.pd.get_dummies: pandas의 get_dummies()는 주로 데이터프레임에서 범주형 데이터를 쉽게 인코딩하기 위해.. 공감수 0 댓글수 0 2024. 11. 7.
  • LabelEncoder와 OneHotEncoder의 차이는 무엇일까? 안녕하세요, 오늘은 LabelEncoder와 OneHotEncoder의 차이에 대하여 알아보겠습니다. LabelEncoder와 OneHotEncoder는 모두 범주형(object) 데이터를 수치형 데이터로 변환할 때 사용하는 인코딩 도구지만,사용 용도가 약간 다릅니다. 1. LabelEncoder개요 - LabelEncoder는 범주형 데이터의 각 값을 고유한 숫자(Label)로 변환합니다. 예를 들어, 'Red', 'Blue', 'Green'이라는 세 개의 카테고리가 있으면, 각각 0, 1, 2로 인코딩됩니다. 사용 용도 - 데이터의 카테고리 간에 순서가 있거나, 특정한 모델(예: 트리 기반 모델)에서는 숫자 자체가 의미를 가지지 않기 때문에, 고유한 숫자만 있으면 되는 경우 사용합니다. 예시 -'소형.. 공감수 1 댓글수 1 2024. 11. 5.
  • 빅데이터분석기사) 빅분기 실기 체험 제2유형 안녕하세요 오늘은 빅데이터분석기사 실기시험에 대비하여 빅분기 실기 체험 제2유형을 풀어보겠습니다.  https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/4 구름EDU - 모두를 위한 맞춤형 IT교육구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/edu.goorm.io  위 URL로 접속하여 체험이 가능합니다. 문제 풀이 및 주석은 아래와 같습니다.  i.. 공감수 0 댓글수 0 2024. 11. 1.
  • train_test_split의 파라미터에서 stratify는 언제 사용할까? 안녕하세요,오늘은 모델의 성능을 평가하기 위해 훈련 데이터와 테스트 데이터를 분할하는 데 사용되는 함수인train_test_split()와 그 파라미터인 stratify에 대하여 알아보겠습니다. train_test_split란?데이터셋을 train 데이터와 test 데이터로 분할하는 데 사용되는 함수입니다.주로 모델의 성능을 평가하기 위해 데이터를 나눌 때 사용하며 Python의 머신러닝 라이브러리인 Scikit-Learn에서 제공됩니다. - 주요 목적train 데이터는 모델을 학습시키기 위해 사용하고, test 데이터는 학습된 모델이 새로운 데이터에 대해 얼마나 잘 일반화되는지 평가하기 위해 사용합니다.데이터를 훈련과 테스트로 분리하면, train 데이터에만 최적화된 모델이 되는 것을 방지하고 새로운 .. 공감수 1 댓글수 1 2024. 11. 1.
  • roc_curve와 roc_auc_score는 각각 언제 사용할까? 안녕하세요, 오늘은 모델 성능평가와 관련하여 roc_curve와 roc_auc_score의 차이에 대하여 알아보겠습니다.  roc_curve와 roc_auc_score는 둘 다 분류 모델의 성능을 평가하는 데 사용되지만, 서로 다른 정보를 제공합니다. 이 둘의 사용처와 역할을 비교하면 다음과 같습니다. 1. roc_curve정의: roc_curve는 다양한 분류 임곗값(threshold)에 대해 **True Positive Rate (TPR, 재현율)**와 **False Positive Rate (FPR)**를 계산하여 ROC (Receiver Operating Characteristic) 곡선을 생성하는 함수입니다. 사용처:모델의 성능을 시각적으로 평가하고 싶을 때 유용합니다.임곗값에 따라 TPR과 F.. 공감수 1 댓글수 1 2024. 10. 31.
  • MinMaxScaler과 StandardScaler는 언제 사용할까? 안녕하세요, 오늘은 수치형 스케일러인 MinMaxScaler와 StandardScaler에 대하여 알아보겠습니다. MinMaxScaler와 StandardScaler는 데이터의 스케일을 조정해주는 두 가지 대표적인 방법으로, 데이터의 특성과 분석 목적에 따라 선택적으로 사용됩니다. 1. MinMaxScaler특징: 데이터의 최소값을 0, 최대값을 1로 변환해 모든 값이 0에서 1 사이에 위치하도록 스케일링합니다.장점: 값이 일정한 범위 내에 존재하게 되므로 특정 값 범위가 필요한 알고리즘(예: 이미지 처리를 위한 신경망)이나 거리 기반 알고리즘(예: K-Nearest Neighbors)에서 유용합니다.사용처:데이터의 분포가 특정 범위 안에 있도록 제약해야 하는 경우.최대값과 최소값의 차이가 큰 변수를 사.. 공감수 0 댓글수 0 2024. 10. 30.
  • 데이터분석 준전문가(ADsP) 자격증 후기 문과-학원 출신이라통계쪽 관련 지식은 전혀없고 백엔드 개발직무 하고있습니다.​기존에 취득한 자격증은 리눅스마스터2급, sqld, 정보처리기사 있습니다.​하루 2시간씩 3주정도 공부했고 교재는 데이터에듀(민트책)이론 1회독, 문제 2회독+유튜브(아답터-민기술사) 전체 1회 + 필요한부분 추가로시청했습니다.  데이터에듀 교재를 구입하게되면 데이터에듀pt라는 모바일웹을 사용할 수 있게되어 핸드폰만 있다면 언제 어디서든 문제를 풀어볼 수 있어서 회사에서 틈날때나 화장실 갔을때,출퇴근길에 틈틈히 문제풀이 및 해설 공부를 했습니다.어플 구조는 아래 이미지 참고하시기 바랍니다! 공감수 3 댓글수 4 2024. 9. 13.
  • adsp 1과목 정리 adsp 1과목 정리 - 정성데이터텍스트로 표현(문과적) 정량데이터숫자로 표현(이과적) 암묵지(혼자만 알고 있는 것)와 형식지(책등 공유) 상호작용관계는?공통화(암묵지를 타인과 공유한다) ->표출화(책등의 형식지로 만든다) ->연결화(책등에 자신이 아는 새로운 지식 추가) ->내면화(책등을 보고 타인들이 암묵적 지식 습득) 정형 데이터- 구조화 가능반정형 데이터- 메타데이터가 있음비정형 데이터- 구조화 불가능 , 텍스트,이미지,오디오,비디오등 다양한 형태 DIKW 피라미드지혜(wisdom) 다른 물건도 B가 더 비쌀 것이다.지식(knowledge) 상대적으로 저렴한 A에서 사야겠다.정보(information) A보다 B가 비싸다.데이터(data) USB를 A는 50원 B는 100원에 판다. DW의 경우 .. 공감수 0 댓글수 0 2024. 7. 24.
    반응형
    문의안내
    • 티스토리
    • 로그인
    • 고객센터

    티스토리는 카카오에서 사랑을 담아 만듭니다.

    © Kakao Corp.