L40S GPU 서버에 vLLM으로 Qwen3-30B 모델 띄우기

L40S_GPU_Qwen3_30B

핵심 요약 새로 구매한 L40S GPU 서버에 Docker 기반 vLLM을 설치하고 Qwen3-30B-A3B-Instruct 모델을 구동하는 전체 과정을 다룹니다. 서버 초기 설정부터 모델 실행까지 실제 작업 순서대로 정리했으며, 중간에 발생할 수 있는 문제 해결 방법도 함께 담았습니다. 요즘 AI 모델 서빙에 관심 있는 분들 사이에서 vLLM이 화제입니다. 특히 대용량 언어 모델을 빠르고 효율적으로 운영할 수 있다는 점 … Read more

L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more