L40S GPU 서버에 vLLM으로 Qwen3-30B 모델 띄우기
핵심 요약 새로 구매한 L40S GPU 서버에 Docker 기반 vLLM을 설치하고 Qwen3-30B-A3B-Instruct 모델을 구동하는 전체 과정을 다룹니다. 서버 초기 설정부터 모델 실행까지 실제 작업 순서대로 정리했으며, 중간에 발생할 수 있는 문제 해결 방법도 함께 담았습니다. 요즘 AI 모델 서빙에 관심 있는 분들 사이에서 vLLM이 화제입니다. 특히 대용량 언어 모델을 빠르고 효율적으로 운영할 수 있다는 점 … Read more