반응형
안녕하세요.
오늘은 지난 시간에 공부한 RAG와 파인튜닝에 이어서 청크와 임베딩에 대하여 알아보겠습니다.
청크 (Chunk)
1. 개념
- 청크(Chunk)란, 큰 텍스트 데이터를 작은 조각으로 나누는 것을 말합니다.
- 주로 RAG와 같은 검색 기반 모델에서 사용되며, 한 번에 너무 많은 텍스트를 처리하면 모델의 한계(예: 토큰 제한)에 걸리기 때문에, 효율적인 검색을 위해 청크로 나누어 처리합니다.
2. 청크를 나누는 기준
- 길이 기준: 일반적으로 512~1024 토큰 정도로 나눔.
- 문단 기준: 의미가 잘리지 않도록 문단 단위로 나눔.
- 주제 기준: 같은 주제나 문맥을 가진 부분끼리 묶음.
3. 청크의 활용
- RAG:
- 질문에 맞는 청크를 찾아서 관련 정보를 제공.
- 검색 단계에서 청크별로 유사도를 계산해 적합한 청크를 참조.
- 파인튜닝:
- 파인튜닝 시에는 토큰 제한을 넘지 않도록 청크 단위로 학습.
4. 예시: 청크 나누기
● 원문 - "강화 학습은 보상을 통해 학습하는 방법입니다. 이는 에이전트가 환경과 상호작용하며
적절한 행동을 선택하는 과정입니다. 딥러닝과 결합하면 더욱 강력해집니다."
● 청크 1 - "강화 학습은 보상을 통해 학습하는 방법입니다."
● 청크 2 - "이는 에이전트가 환경과 상호작용하며 적절한 행동을 선택하는 과정입니다."
● 청크 3 - "딥러닝과 결합하면 더욱 강력해집니다."
임베딩 (Embedding)
1. 개념
- 임베딩(Embedding)이란, 텍스트를 수치 벡터(Vector)로 변환하는 과정입니다.
- 이 벡터는 텍스트의 의미와 문맥을 포함해, 컴퓨터가 이해할 수 있도록 합니다.
- 주로 RAG와 파인튜닝에서 유사도 검색과 도메인 특화 학습에 사용됩니다.
2. 임베딩 방법
- Word2Vec: 단어 간 유사도를 벡터로 표현.
- BERT, Sentence-BERT: 문장 단위의 의미 임베딩 가능.
- CLIP: 텍스트와 이미지를 동시에 임베딩해 의미를 비교.
3. 임베딩의 활용
- RAG:
- 질문을 임베딩 → 청크의 임베딩과 코사인 유사도 계산 → 가장 유사한 청크 검색.
- 파인튜닝:
- 특화된 임베딩을 사용해 도메인 지식 학습.
4. 임베딩 벡터의 예시
- "강화 학습" → [0.12, 0.45, -0.33, ...]
- "딥러닝" → [0.15, 0.47, -0.35, ...]
청크와 임베딩의 관계
항목 | 청크 | 임베딩 |
목적 | 큰 텍스트를 다루기 쉽게 작게 분할 | 텍스트의 의미를 수치 벡터로 변환 |
활용 분야 | RAG의 검색 효율성 개선 | 유사도 비교, 파인튜닝에서 도메인 지식 강화 |
기술 예시 | 512~1024 토큰 단위 청크 | Word2Vec, BERT, Sentence-BERT |
RAG에서의 역할 | 검색할 수 있도록 나누기 | 청크 간 유사도 계산 |
파인튜닝에서의 역할 | 토큰 제한 해결 및 효율적 학습 | 도메인 특화 학습 |
최종 정리 -
- 청크: 큰 텍스트를 작게 나누어 처리해 효율성을 높임.
- 임베딩: 나뉜 청크를 수치 벡터로 변환해 의미를 비교하고, 유사한 답변을 찾음.
- RAG: 청크 + 임베딩을 활용해 최신 정보와 정확한 답변 제공.
- 파인튜닝: 임베딩을 통해 도메인 특화 지식을 학습하고 일관성 유지.
즉, 청크는 데이터를 다루기 위한 단위화이고, 임베딩은 그 데이터를 이해하기 위한 벡터화입니다.
감사합니다.
반응형
'AI' 카테고리의 다른 글
[AI] 머신러닝 핵심 개념 요약 정리 - Day_1 (0) | 2025.05.30 |
---|---|
LangChain(랭체인)이란? (2) | 2025.03.22 |
[LLM]파인튜닝 (Fine-tuning)? RAG (Retrieval-Augmented Generation)? 무엇일까?? (1) | 2025.03.09 |
LLM과 RAG란 무엇일까? (3) | 2025.03.04 |
[ kakao / kanana ] 최근 공개한 kakao의 언어 모델인 kanana란? (2) | 2025.02.28 |