AI

LLM과 RAG란 무엇일까?

Lcoding 2025. 3. 4. 21:44
반응형

 

안녕하세요.

 

오늘은 LLM과 RAG에 대하여 알아보겠습니다.

 

1.  LLM (Large Language Model) — 대규모 언어 모델

LLM은 방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 AI 모델입니다.

대표적으로 GPT (Generative Pre-trained Transformer) 시리즈가 LLM에 해당합니다.

 

 

1_1. 특징:

  1. 대규모 학습 데이터:
    • 인터넷 텍스트, 위키피디아, 논문 등에서 수집한 데이터를 기반으로 학습.
  2. 언어 이해 및 생성:
    • 대화, 번역, 요약, 코딩 등 다양한 작업 수행 가능.
  3. 확률 기반 예측:
    • 주어진 문맥에서 다음에 나올 단어를 확률적으로 예측.
  4. 사전 학습(Pre-training)과 미세 조정(Fine-tuning):
    • 대량의 데이터로 사전 학습 후, 특정 작업에 맞춰 미세 조정.

 

1_2. 주요 활용:

  • 챗봇 개발: 자연스러운 대화 가능.
  • 코드 자동 생성: 파이썬, 자바 등 다양한 언어 지원.
  • 컨텐츠 생성: 블로그, 마케팅 글 작성.
  • 데이터 분석: SQL 쿼리 생성 및 설명.

 

 

 

2. RAG (Retrieval-Augmented Generation) — 검색 강화 생성

RAG는 LLM의 한계를 보완하기 위해 **정보 검색(Retrieval)**과 **텍스트 생성(Generation)**을 결합한 방식입니다.

 

 

2_1. 특징:

  1. 검색 단계 (Retrieval):
    • **벡터 검색 엔진 (예: FAISS, ElasticSearch)**을 통해 관련 정보를 검색.
    • 사전에 구축된 지식 베이스나 문서에서 유사한 정보를 찾음.
  2. 생성 단계 (Generation):
    • 검색된 정보를 LLM에 전달해 답변 생성.
    • 최신 정보와 도메인 특화 지식을 반영해 더 정확한 응답 가능.
  3. 장점:
    • 최신 정보를 반영해 LLM의 한계 극복.
    • 검색된 정보 기반으로 더 정확한 답변 가능.

2_2. 주요 활용:

  • 고객 지원: 제품 매뉴얼 검색 후 정확한 답변.
  • 의료 분야: 최신 논문 검색 후 상담.
  • 기업 내 문서 검색: 사내 문서 기반 빠른 답변.

 

3. LLM vs RAG 비교:

특징 LLM (대규모 언어 모델) RAG (검색 강화)
데이터 활용 학습된 데이터만 사용 검색을 통해 최신 정보 활용
응답 정확도 제한적 검색된 정보를 기반으로 높은 정확도
실시간 정보 활용 불가능 가능
복잡한 질문 처리 제한적 검색 + 생성 결합으로 효과적 처리

 

 

 


 

※ LLM과 RAG와 함께 알아두면 좋은 키워드와 개념

 

1. Transformer

  • 정의 -
    LLM의 핵심 알고리즘. Self-Attention 메커니즘을 이용해 문장의 문맥을 파악하고 병렬 처리가 가능함.
  • 특징 - 
    순차 처리 없이 병렬로 빠르게 학습 가능.
  • 대표 모델 -
    GPT, BERT, T5.

2. Embedding (임베딩)

  • 정의 -
    단어를 고정된 크기의 벡터로 변환해 의미를 보존하는 기법.
  • 특징 -
    단어 간 유사도를 수치로 표현 가능.
  • 활용 -
    RAG의 검색 단계에서 유사도 비교를 위해 사용.
  • 예시 -
    Word2Vec, GloVe, BERT 임베딩.

3. Vector Database (벡터 데이터베이스)

  • 정의 -
    임베딩된 벡터를 저장하고 유사도를 기반으로 검색하는 데이터베이스.
  • 특징 -
    대량의 벡터 데이터를 빠르게 검색 가능.
  • 대표 도구 -
    FAISS, Pinecone, Weaviate.
  • 활용 -
    RAG에서 효율적인 검색을 위해 사용.

4. Attention Mechanism (어텐션 메커니즘)

  • 정의 -
    문장 내에서 중요한 부분에 집중(가중치 부여)하는 기법.
  • 특징 -
    중요한 단어에 높은 가중치를 줘 문장의 의미를 정확히 파악.
  • 대표 유형 -
    Self-Attention: 문장 내 단어들끼리 상호 참조.
  • 활용 -
    Transformer와 LLM의 문맥 이해 능력 강화.

5. Knowledge Base (지식 베이스)

  • 정의 -
    특정 분야의 지식을 체계적으로 저장한 데이터베이스.
  • 특징 -
    관계형 데이터와 텍스트 데이터를 모두 저장 가능.
  • 활용 -
    RAG에서 검색 소스로 사용해 더 정확한 정보 제공.
  • 예시 -
    위키피디아, 사내 문서 저장소.

6. Fine-tuning (미세 조정)

  • 정의 -
    사전 학습된 모델을 특정 작업에 맞게 추가 학습.
  • 특징 -
    도메인 특화된 데이터로 학습해 정확도 향상.
  • 활용 -
    LLM을 특정 분야 전문가처럼 동작하게 함.
  • 대표 방법 -
    Transfer Learning (전이 학습).

7. Knowledge Graph (지식 그래프)

  • 정의 -
    엔티티와 관계를 그래프로 표현해 지식 간 연결을 시각화.
  • 특징 -
    정보 간 관계를 이해하고 복잡한 질의에 답변 가능.
  • 활용 -
    LLM과 결합해 문맥 이해와 추론 능력 강화.
  • 대표 사례 -
    구글의 지식 그래프 (Google Knowledge Graph).

 

 

8. 간단 정리 -  

  • Transformer: LLM의 뇌.
  • Embedding: 단어를 벡터로 표현.
  • Vector Database: 벡터 저장소.
  • Attention: 문장 내 중요한 부분에 집중.
  • Knowledge Base: 전문 지식 저장소.
  • Fine-tuning: 맞춤형 학습.
  • Knowledge Graph: 정보의 관계 지도.

이렇게 표현이 가능합니다.

 

감사합니다.

 

반응형