AI
LLM과 RAG란 무엇일까?
Lcoding
2025. 3. 4. 21:44
반응형
안녕하세요.
오늘은 LLM과 RAG에 대하여 알아보겠습니다.
1. LLM (Large Language Model) — 대규모 언어 모델
LLM은 방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 AI 모델입니다.
대표적으로 GPT (Generative Pre-trained Transformer) 시리즈가 LLM에 해당합니다.
1_1. 특징:
- 대규모 학습 데이터:
- 인터넷 텍스트, 위키피디아, 논문 등에서 수집한 데이터를 기반으로 학습.
- 언어 이해 및 생성:
- 대화, 번역, 요약, 코딩 등 다양한 작업 수행 가능.
- 확률 기반 예측:
- 주어진 문맥에서 다음에 나올 단어를 확률적으로 예측.
- 사전 학습(Pre-training)과 미세 조정(Fine-tuning):
- 대량의 데이터로 사전 학습 후, 특정 작업에 맞춰 미세 조정.
1_2. 주요 활용:
- 챗봇 개발: 자연스러운 대화 가능.
- 코드 자동 생성: 파이썬, 자바 등 다양한 언어 지원.
- 컨텐츠 생성: 블로그, 마케팅 글 작성.
- 데이터 분석: SQL 쿼리 생성 및 설명.
2. RAG (Retrieval-Augmented Generation) — 검색 강화 생성
RAG는 LLM의 한계를 보완하기 위해 **정보 검색(Retrieval)**과 **텍스트 생성(Generation)**을 결합한 방식입니다.
2_1. 특징:
- 검색 단계 (Retrieval):
- **벡터 검색 엔진 (예: FAISS, ElasticSearch)**을 통해 관련 정보를 검색.
- 사전에 구축된 지식 베이스나 문서에서 유사한 정보를 찾음.
- 생성 단계 (Generation):
- 검색된 정보를 LLM에 전달해 답변 생성.
- 최신 정보와 도메인 특화 지식을 반영해 더 정확한 응답 가능.
- 장점:
- 최신 정보를 반영해 LLM의 한계 극복.
- 검색된 정보 기반으로 더 정확한 답변 가능.
2_2. 주요 활용:
- 고객 지원: 제품 매뉴얼 검색 후 정확한 답변.
- 의료 분야: 최신 논문 검색 후 상담.
- 기업 내 문서 검색: 사내 문서 기반 빠른 답변.
3. LLM vs RAG 비교:
특징 | LLM (대규모 언어 모델) | RAG (검색 강화) |
데이터 활용 | 학습된 데이터만 사용 | 검색을 통해 최신 정보 활용 |
응답 정확도 | 제한적 | 검색된 정보를 기반으로 높은 정확도 |
실시간 정보 활용 | 불가능 | 가능 |
복잡한 질문 처리 | 제한적 | 검색 + 생성 결합으로 효과적 처리 |
※ LLM과 RAG와 함께 알아두면 좋은 키워드와 개념
1. Transformer
- 정의 -
LLM의 핵심 알고리즘. Self-Attention 메커니즘을 이용해 문장의 문맥을 파악하고 병렬 처리가 가능함. - 특징 -
순차 처리 없이 병렬로 빠르게 학습 가능. - 대표 모델 -
GPT, BERT, T5.
2. Embedding (임베딩)
- 정의 -
단어를 고정된 크기의 벡터로 변환해 의미를 보존하는 기법. - 특징 -
단어 간 유사도를 수치로 표현 가능. - 활용 -
RAG의 검색 단계에서 유사도 비교를 위해 사용. - 예시 -
Word2Vec, GloVe, BERT 임베딩.
3. Vector Database (벡터 데이터베이스)
- 정의 -
임베딩된 벡터를 저장하고 유사도를 기반으로 검색하는 데이터베이스. - 특징 -
대량의 벡터 데이터를 빠르게 검색 가능. - 대표 도구 -
FAISS, Pinecone, Weaviate. - 활용 -
RAG에서 효율적인 검색을 위해 사용.
4. Attention Mechanism (어텐션 메커니즘)
- 정의 -
문장 내에서 중요한 부분에 집중(가중치 부여)하는 기법. - 특징 -
중요한 단어에 높은 가중치를 줘 문장의 의미를 정확히 파악. - 대표 유형 -
Self-Attention: 문장 내 단어들끼리 상호 참조. - 활용 -
Transformer와 LLM의 문맥 이해 능력 강화.
5. Knowledge Base (지식 베이스)
- 정의 -
특정 분야의 지식을 체계적으로 저장한 데이터베이스. - 특징 -
관계형 데이터와 텍스트 데이터를 모두 저장 가능. - 활용 -
RAG에서 검색 소스로 사용해 더 정확한 정보 제공. - 예시 -
위키피디아, 사내 문서 저장소.
6. Fine-tuning (미세 조정)
- 정의 -
사전 학습된 모델을 특정 작업에 맞게 추가 학습. - 특징 -
도메인 특화된 데이터로 학습해 정확도 향상. - 활용 -
LLM을 특정 분야 전문가처럼 동작하게 함. - 대표 방법 -
Transfer Learning (전이 학습).
7. Knowledge Graph (지식 그래프)
- 정의 -
엔티티와 관계를 그래프로 표현해 지식 간 연결을 시각화. - 특징 -
정보 간 관계를 이해하고 복잡한 질의에 답변 가능. - 활용 -
LLM과 결합해 문맥 이해와 추론 능력 강화. - 대표 사례 -
구글의 지식 그래프 (Google Knowledge Graph).
8. 간단 정리 -
- Transformer: LLM의 뇌.
- Embedding: 단어를 벡터로 표현.
- Vector Database: 벡터 저장소.
- Attention: 문장 내 중요한 부분에 집중.
- Knowledge Base: 전문 지식 저장소.
- Fine-tuning: 맞춤형 학습.
- Knowledge Graph: 정보의 관계 지도.
이렇게 표현이 가능합니다.
감사합니다.
반응형