본문 바로가기
AI

청크(Chunk)와 임베딩 (Embedding)이란

by Lcoding 2025. 3. 10.
반응형

 

안녕하세요.

 

오늘은 지난 시간에 공부한 RAG와 파인튜닝에 이어서 청크와 임베딩에 대하여 알아보겠습니다.

 

청크 (Chunk)

1. 개념

  • 청크(Chunk)란, 큰 텍스트 데이터를 작은 조각으로 나누는 것을 말합니다.
  • 주로 RAG와 같은 검색 기반 모델에서 사용되며, 한 번에 너무 많은 텍스트를 처리하면 모델의 한계(예: 토큰 제한)에 걸리기 때문에, 효율적인 검색을 위해 청크로 나누어 처리합니다.

2. 청크를 나누는 기준

  • 길이 기준: 일반적으로 512~1024 토큰 정도로 나눔.
  • 문단 기준: 의미가 잘리지 않도록 문단 단위로 나눔.
  • 주제 기준: 같은 주제나 문맥을 가진 부분끼리 묶음.

3. 청크의 활용

  • RAG:
    • 질문에 맞는 청크를 찾아서 관련 정보를 제공.
    • 검색 단계에서 청크별로 유사도를 계산해 적합한 청크를 참조.
  • 파인튜닝:
    • 파인튜닝 시에는 토큰 제한을 넘지 않도록 청크 단위로 학습.

4. 예시: 청크 나누기

원문 -  "강화 학습은 보상을 통해 학습하는 방법입니다. 이는 에이전트가 환경과 상호작용하며

   적절한 행동을 선택하는 과정입니다. 딥러닝과 결합하면 더욱 강력해집니다."

청크 1 -  "강화 학습은 보상을 통해 학습하는 방법입니다."

청크 2 -  "이는 에이전트가 환경과 상호작용하며 적절한 행동을 선택하는 과정입니다."

청크 3 - "딥러닝과 결합하면 더욱 강력해집니다."

 

임베딩 (Embedding)

1. 개념

  • 임베딩(Embedding)이란, 텍스트를 수치 벡터(Vector)로 변환하는 과정입니다.
  • 이 벡터는 텍스트의 의미와 문맥을 포함해, 컴퓨터가 이해할 수 있도록 합니다.
  • 주로 RAG와 파인튜닝에서 유사도 검색도메인 특화 학습에 사용됩니다.

2. 임베딩 방법

  • Word2Vec: 단어 간 유사도를 벡터로 표현.
  • BERT, Sentence-BERT: 문장 단위의 의미 임베딩 가능.
  • CLIP: 텍스트와 이미지를 동시에 임베딩해 의미를 비교.

3. 임베딩의 활용

  • RAG:
    • 질문을 임베딩 → 청크의 임베딩과 코사인 유사도 계산 → 가장 유사한 청크 검색.
  • 파인튜닝:
    • 특화된 임베딩을 사용해 도메인 지식 학습.

4. 임베딩 벡터의 예시

  • "강화 학습" → [0.12, 0.45, -0.33, ...]
  • "딥러닝" → [0.15, 0.47, -0.35, ...]

 

 

청크와 임베딩의 관계

항목 청크 임베딩
목적 큰 텍스트를 다루기 쉽게 작게 분할 텍스트의 의미를 수치 벡터로 변환
활용 분야 RAG의 검색 효율성 개선 유사도 비교, 파인튜닝에서 도메인 지식 강화
기술 예시 512~1024 토큰 단위 청크 Word2Vec, BERT, Sentence-BERT
RAG에서의 역할 검색할 수 있도록 나누기 청크 간 유사도 계산
파인튜닝에서의 역할 토큰 제한 해결 및 효율적 학습 도메인 특화 학습

 

 

최종 정리 - 

  • 청크: 큰 텍스트를 작게 나누어 처리해 효율성을 높임.
  • 임베딩: 나뉜 청크를 수치 벡터로 변환해 의미를 비교하고, 유사한 답변을 찾음.
  • RAG: 청크 + 임베딩을 활용해 최신 정보정확한 답변 제공.
  • 파인튜닝: 임베딩을 통해 도메인 특화 지식을 학습하고 일관성 유지.

 

즉, 청크는 데이터를 다루기 위한 단위화이고, 임베딩은 그 데이터를 이해하기 위한 벡터화입니다.

 

감사합니다.

 

 

반응형

loading