청크(Chunk)와 임베딩 (Embedding)이란

안녕하세요.

오늘은 지난 시간에 공부한 RAG와 파인튜닝에 이어서 청크와 임베딩에 대하여 알아보겠습니다.

청크 (Chunk)

1. 개념

청크(Chunk)란, 큰 텍스트 데이터를 작은 조각으로 나누는 것을 말합니다.
주로 RAG와 같은 검색 기반 모델에서 사용되며, 한 번에 너무 많은 텍스트를 처리하면 모델의 한계(예: 토큰 제한)에 걸리기 때문에, 효율적인 검색을 위해 청크로 나누어 처리합니다.

2. 청크를 나누는 기준

길이 기준: 일반적으로 512~1024 토큰 정도로 나눔.
문단 기준: 의미가 잘리지 않도록 문단 단위로 나눔.
주제 기준: 같은 주제나 문맥을 가진 부분끼리 묶음.

3. 청크의 활용

RAG:
- 질문에 맞는 청크를 찾아서 관련 정보를 제공.
- 검색 단계에서 청크별로 유사도를 계산해 적합한 청크를 참조.
파인튜닝:
- 파인튜닝 시에는 토큰 제한을 넘지 않도록 청크 단위로 학습.

4. 예시: 청크 나누기

● 원문 - "강화 학습은 보상을 통해 학습하는 방법입니다. 이는 에이전트가 환경과 상호작용하며

적절한 행동을 선택하는 과정입니다. 딥러닝과 결합하면 더욱 강력해집니다."

● 청크 1 - "강화 학습은 보상을 통해 학습하는 방법입니다."

● 청크 2 - "이는 에이전트가 환경과 상호작용하며 적절한 행동을 선택하는 과정입니다."

● 청크 3 - "딥러닝과 결합하면 더욱 강력해집니다."

임베딩 (Embedding)

1. 개념

임베딩(Embedding)이란, 텍스트를 수치 벡터(Vector)로 변환하는 과정입니다.
이 벡터는 텍스트의 의미와 문맥을 포함해, 컴퓨터가 이해할 수 있도록 합니다.
주로 RAG와 파인튜닝에서 유사도 검색과 도메인 특화 학습에 사용됩니다.

2. 임베딩 방법

Word2Vec: 단어 간 유사도를 벡터로 표현.
BERT, Sentence-BERT: 문장 단위의 의미 임베딩 가능.
CLIP: 텍스트와 이미지를 동시에 임베딩해 의미를 비교.

3. 임베딩의 활용

RAG:
- 질문을 임베딩 → 청크의 임베딩과 코사인 유사도 계산 → 가장 유사한 청크 검색.
파인튜닝:
- 특화된 임베딩을 사용해 도메인 지식 학습.

4. 임베딩 벡터의 예시

"강화 학습" → [0.12, 0.45, -0.33, ...]
"딥러닝" → [0.15, 0.47, -0.35, ...]

청크와 임베딩의 관계

항목	청크	임베딩
목적	큰 텍스트를 다루기 쉽게 작게 분할	텍스트의 의미를 수치 벡터로 변환
활용 분야	RAG의 검색 효율성 개선	유사도 비교, 파인튜닝에서 도메인 지식 강화
기술 예시	512~1024 토큰 단위 청크	Word2Vec, BERT, Sentence-BERT
RAG에서의 역할	검색할 수 있도록 나누기	청크 간 유사도 계산
파인튜닝에서의 역할	토큰 제한 해결 및 효율적 학습	도메인 특화 학습

최종 정리 -

청크: 큰 텍스트를 작게 나누어 처리해 효율성을 높임.
임베딩: 나뉜 청크를 수치 벡터로 변환해 의미를 비교하고, 유사한 답변을 찾음.
RAG: 청크 + 임베딩을 활용해 최신 정보와 정확한 답변 제공.
파인튜닝: 임베딩을 통해 도메인 특화 지식을 학습하고 일관성 유지.

즉, 청크는 데이터를 다루기 위한 단위화이고, 임베딩은 그 데이터를 이해하기 위한 벡터화입니다.

감사합니다.

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

[AI] 머신러닝 핵심 개념 요약 정리 - Day_1 (0)	2025.05.30
LangChain(랭체인)이란? (2)	2025.03.22
[LLM]파인튜닝 (Fine-tuning)? RAG (Retrieval-Augmented Generation)? 무엇일까?? (1)	2025.03.09
LLM과 RAG란 무엇일까? (3)	2025.03.04
[ kakao / kanana ] 최근 공개한 kakao의 언어 모델인 kanana란? (2)	2025.02.28

암자의 코딩생활

청크(Chunk)와 임베딩 (Embedding)이란

청크 (Chunk)

임베딩 (Embedding)

청크와 임베딩의 관계

최종 정리 -

'AI' 카테고리의 다른 글

티스토리툴바

청크(Chunk)와 임베딩 (Embedding)이란

청크 (Chunk)

임베딩 (Embedding)

청크와 임베딩의 관계

최종 정리 -

'AI' 카테고리의 다른 글

관련글

티스토리툴바