L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more

LangGraph 멀티에이전트 RAG: 문서 기반 질의응답의 새로운 패러다임

랭그래프 RAG 전략

최근 AI 분야에서 가장 주목받고 있는 기술 중 하나는 바로 멀티에이전트 시스템입니다. 특히 LangGraph를 활용한 멀티에이전트 RAG(Retrieval-Augmented Generation) 시스템은 기존 단일 에이전트의 한계를 뛰어넘어 더욱 정확하고 신뢰할 수 있는 문서 기반 질의응답을 가능하게 합니다. 오늘은 이러한 혁신적인 시스템이 어떻게 구성되고 작동하는지 자세히 알아보겠습니다. 기존 RAG 시스템의 한계점 기존의 단일 에이전트 RAG 시스템은 여러 문제점을 가지고 … Read more