L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more

구글 Gemma 모델 설치부터 활용까지 (2025년)

gemma

  안녕하세요, 요즘 AI 모델에 대한 관심, 정말 뜨겁죠. ChatGPT는 물론이고 Mistral, Claude, LLaMA 등 다양한 오픈소스 LLM이 쏟아져 나오고 있는데요, 오늘은 이 중에서도 개발자 친화적인 구글의 최신 모델 Gemma에 대해 이야기해보려 합니다. 2024년 말, 그리고 2025년 상반기까지 가장 핫하게 떠오른 이름 중 하나가 바로 Gemma입니다. “Gemma가 뭐길래?” 하고 궁금하셨던 분들을 위해, 이 글에서는 Gemma … Read more