반응형 Embedding2 청크(Chunk)와 임베딩 (Embedding)이란 안녕하세요. 오늘은 지난 시간에 공부한 RAG와 파인튜닝에 이어서 청크와 임베딩에 대하여 알아보겠습니다. 청크 (Chunk)1. 개념청크(Chunk)란, 큰 텍스트 데이터를 작은 조각으로 나누는 것을 말합니다.주로 RAG와 같은 검색 기반 모델에서 사용되며, 한 번에 너무 많은 텍스트를 처리하면 모델의 한계(예: 토큰 제한)에 걸리기 때문에, 효율적인 검색을 위해 청크로 나누어 처리합니다.2. 청크를 나누는 기준길이 기준: 일반적으로 512~1024 토큰 정도로 나눔.문단 기준: 의미가 잘리지 않도록 문단 단위로 나눔.주제 기준: 같은 주제나 문맥을 가진 부분끼리 묶음.3. 청크의 활용RAG:질문에 맞는 청크를 찾아서 관련 정보를 제공.검색 단계에서 청크별로 유사도를 계산해 적합한 청크를 참조.파인튜닝:.. 2025. 3. 10. LLM과 RAG란 무엇일까? 안녕하세요. 오늘은 LLM과 RAG에 대하여 알아보겠습니다. 1. LLM (Large Language Model) — 대규모 언어 모델LLM은 방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 AI 모델입니다.대표적으로 GPT (Generative Pre-trained Transformer) 시리즈가 LLM에 해당합니다. 1_1. 특징:대규모 학습 데이터:인터넷 텍스트, 위키피디아, 논문 등에서 수집한 데이터를 기반으로 학습.언어 이해 및 생성:대화, 번역, 요약, 코딩 등 다양한 작업 수행 가능.확률 기반 예측:주어진 문맥에서 다음에 나올 단어를 확률적으로 예측.사전 학습(Pre-training)과 미세 조정(Fine-tuning):대량의 데이터로 사전 학습 후, 특정 작업에 .. 2025. 3. 4. 이전 1 다음 반응형