본문 바로가기

AI10

청크(Chunk)와 임베딩 (Embedding)이란 안녕하세요. 오늘은 지난 시간에 공부한 RAG와 파인튜닝에 이어서 청크와 임베딩에 대하여 알아보겠습니다. 청크 (Chunk)1. 개념청크(Chunk)란, 큰 텍스트 데이터를 작은 조각으로 나누는 것을 말합니다.주로 RAG와 같은 검색 기반 모델에서 사용되며, 한 번에 너무 많은 텍스트를 처리하면 모델의 한계(예: 토큰 제한)에 걸리기 때문에, 효율적인 검색을 위해 청크로 나누어 처리합니다.2. 청크를 나누는 기준길이 기준: 일반적으로 512~1024 토큰 정도로 나눔.문단 기준: 의미가 잘리지 않도록 문단 단위로 나눔.주제 기준: 같은 주제나 문맥을 가진 부분끼리 묶음.3. 청크의 활용RAG:질문에 맞는 청크를 찾아서 관련 정보를 제공.검색 단계에서 청크별로 유사도를 계산해 적합한 청크를 참조.파인튜닝:.. 2025. 3. 10.

[LLM]파인튜닝 (Fine-tuning)? RAG (Retrieval-Augmented Generation)? 무엇일까?? 안녕하세요. 오늘은 LLM (Large Language Model)에서 빠질수 없는 파인튜닝 (Fine-tuning)과 RAG (Retrieval-Augmented Generation)에 대하여 알아보겠습니다. 1. 파인튜닝 (Fine-tuning)1. 개념파인튜닝(Fine-tuning)이란, 사전 학습된 대형 언어 모델(LLM)을 특정 도메인이나 작업에 맞게 추가 학습시키는 과정입니다. 이미 대규모 텍스트 데이터를 통해 기본적인 언어 이해 능력을 갖춘 모델을, 특정 목적에 맞춰 추가 데이터를 학습시켜 성능을 향상시킵니다.주로 Supervised Fine-tuning 방식을 사용하며, 정답이 포함된 데이터셋으로 모델의 가중치를 조정합니다.2. 장점도메인 특화: 특정 산업 또는 주제에 맞춘 지식을 강화해 .. 2025. 3. 9.

LLM과 RAG란 무엇일까? 안녕하세요. 오늘은 LLM과 RAG에 대하여 알아보겠습니다. 1. LLM (Large Language Model) — 대규모 언어 모델LLM은 방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 AI 모델입니다.대표적으로 GPT (Generative Pre-trained Transformer) 시리즈가 LLM에 해당합니다. 1_1. 특징:대규모 학습 데이터:인터넷 텍스트, 위키피디아, 논문 등에서 수집한 데이터를 기반으로 학습.언어 이해 및 생성:대화, 번역, 요약, 코딩 등 다양한 작업 수행 가능.확률 기반 예측:주어진 문맥에서 다음에 나올 단어를 확률적으로 예측.사전 학습(Pre-training)과 미세 조정(Fine-tuning):대량의 데이터로 사전 학습 후, 특정 작업에 .. 2025. 3. 4.

[ kakao / kanana ] 최근 공개한 kakao의 언어 모델인 kanana란? 안녕하세요. 최근에 카카오에서 카나나라는 언어모델의 경량 버전을 오픈소스로 깃허브에 공개하였습니다. 자세한 정보는 아래 링크에서 확인가능합니다. https://github.com/kakao/kanana?tab=readme-ov-file#kanana GitHub - kakao/kanana: Kanana: Compute-efficient Bilingual Language ModelsKanana: Compute-efficient Bilingual Language Models - kakao/kananagithub.com 신규로 공개했으니 테스트 해보기위해 로컬에서 위 링크를 참조하여 테스트 코드를 작성해보았습니다. 이 글은 기본 프로젝트는 생성하였다는 가정하에 메소드 작성 및 호출만 진행합니다. 터미널에서 아.. 2025. 2. 28.

이전 1 2 다음

티스토리툴바