VLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인

Contents

vLLM이란 무엇이고 왜 각광받는가

vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU 메모리 활용률 한계 등을 혁신적으로 개선한 점이 가장 큰 특징이다.
vLLM의 핵심은 “패러렐 디코딩 엔진”, “페이징 기반의 토큰 처리”, “리소스 자동 최적화”다. 이 기술 덕분에 OpenAI GPT-3·4, Llama, Mistral, Falcon, Baichuan 등 수많은 LLM을 API 형태로 저지연·고성능으로 서비스할 수 있다. 최근 프라이빗 LLM, 사내 챗봇, 연구용 API, 온프레미스 인퍼런스 등에 널리 도입되고 있다.

vLLM 서버 설치 방법

vLLM 설치의 기본 흐름

vLLM의 설치는 Linux 기반의 서버에서 GPU 환경을 활용하는 것이 기본이다. 최신 CUDA 지원과 PyTorch 호환성을 갖춘 환경이라면, vLLM 설치는 의외로 간단하다. 우선 운영체제는 Ubuntu 20.04 또는 22.04 등 최신 리눅스를 추천한다.
vLLM은 Python 3.8~3.11 환경에서 작동하며, 공식적으로 pip 패키지를 제공한다. 설치 전 반드시 CUDA 드라이버와 nvidia-driver, 그리고 PyTorch GPU 버전이 제대로 설치되어 있어야 한다. GPU 없이도 일부 기능을 테스트할 수 있지만, 실전 배포는 반드시 CUDA GPU 환경에서 해야 최적의 성능을 얻을 수 있다.

실제 설치 과정의 단계별 안내

서버의 SSH 터미널에 접속해, 먼저 Python과 pip, 그리고 PyTorch가 최신 버전으로 설치되어 있는지 확인한다. 이어서 vLLM 패키지를 pip로 간편하게 설치한다.
pip install vllm 명령어 하나면 대부분의 환경에서 설치가 자동으로 진행된다. 혹시 의존성이나 환경 문제로 오류가 발생하면, 공식 문서의 권장 환경대로 Python 가상환경을 생성한 뒤 재설치하면 대다수 문제가 해결된다. 설치가 완료되면 vllm 서버용 커맨드와, API 테스트를 위한 스크립트들이 함께 설치된다. 만약 특별한 CUDA/cuDNN 버전이 필요한 경우, 미리 서버 관리자와 상의해 환경을 맞추는 것이 좋다.

vLLM 세팅 방법

모델 다운로드와 준비

설치가 끝났다면, 사용할 언어모델을 미리 다운로드하거나 처음 서버 구동 시 자동 다운로드되도록 세팅한다. vLLM은 HuggingFace Hub와 연동되며, HuggingFace의 인기 LLM 모델을 거의 그대로 불러올 수 있다. 예를 들어 Llama-2, Mistral, Falcon, Baichuan, Yi, ChatGLM 등 대부분이 지원된다.
모델은 미리 서버의 저장소(보통 SSD 또는 NVMe)에 다운로드해 두면, 최초 인퍼런스 시 로딩 시간을 크게 줄일 수 있다. 모델이 여러 개인 경우 각 모델 폴더를 별도로 관리해두면 운영과 배포가 훨씬 편리해진다.

vLLM 서버 실행 기본 구조

vLLM 서버를 실제로 구동하려면 vllm.entrypoints.openai.api_server 모듈을 python -m 명령으로 실행하면 된다.
가장 기본적인 명령어는
python -m vllm.entrypoints.openai.api_server –model 모델경로 또는 모델이름
형태다.
예를 들어 Llama-2-7b-chat 모델을 HuggingFace에서 직접 다운받아 구동한다면
python -m vllm.entrypoints.openai.api_server –model meta-llama/Llama-2-7b-chat-hf
이렇게 명령어를 입력하면 된다.
포트 지정, GPU 선택, 배치 처리 등은 다양한 추가 파라미터로 제어할 수 있다.
모델 사이즈에 따라 서버 부팅 시간은 수십 초~수 분이 걸릴 수 있다.

환경변수와 추가 세팅

API 서버 구동 시 환경변수로 포트 번호, 호스트 IP, GPU 메모리 할당량, 동시 요청(batch concurrency), 토큰 제한 등 다양한 옵션을 커스터마이즈 할 수 있다.
특히 –tensor-parallel-size, –gpu-memory-utilization, –max-num-batched-tokens 같은 옵션은 대규모 서비스 환경에서 성능을 좌우한다.
운영환경에서는 systemd 등으로 백그라운드 서비스로 등록하거나, 도커(Docker) 이미지로 래핑해 배포하는 것도 실무에서 자주 쓰인다.

vLLM 호출 방법

OpenAI 호환 REST API의 개념

vLLM의 진짜 매력은 “OpenAI API와 거의 100% 호환되는 RESTful API”를 제공한다는 점이다. 즉, 기존 ChatGPT, GPT-4, GPT-3.5 turbo, Azure OpenAI API를 호출하던 코드(POST /v1/chat/completions, POST /v1/completions 등)를 거의 그대로 사용할 수 있다.
이 덕분에 FastAPI, Flask, Node.js, Langchain, LlamaIndex, Streamlit 등 다양한 프레임워크에서 vLLM을 별도 커스텀 없이 바로 붙일 수 있다.
API 호출 구조도 매우 직관적이다.

Python에서 vLLM 호출 예시

서버가 실행 중이라면, 클라이언트에서는 아래와 같이 Python의 requests 라이브러리를 활용해 쉽게 호출할 수 있다.
예를 들어,
import requests
API_URL = “http://서버IP:8000/v1/chat/completions”
payload = {
“model”: “meta-llama/Llama-2-7b-chat-hf”,
“messages”: [
{“role”: “system”, “content”: “당신은 친절한 어시스턴트입니다.”},
{“role”: “user”, “content”: “vLLM의 특징을 알려줘”}
],
“temperature”: 0.7,
“max_tokens”: 512
}
response = requests.post(API_URL, json=payload)
print(response.json())
이 코드에서 model 파라미터에 구동 중인 모델명을 맞춰주면 된다.
OpenAI 라이브러리에서도 endpoint URL만 vLLM 서버로 바꾸면 기존 방식과 거의 차이가 없다.

Langchain에서 vLLM 연결

Langchain에서는 OpenAI 엔드포인트 URL만 vLLM 서버로 변경하고, 모델명과 API Key만 맞춰주면 된다.
llm = ChatOpenAI(
openai_api_base=”http://서버IP:8000/v1“,
openai_api_key=”EMPTY”,
model=”meta-llama/Llama-2-7b-chat-hf”
)
이렇게 한 줄로 바로 사용할 수 있다.
스트림 응답, 배치 요청 등도 OpenAI와 똑같이 지원된다.

vLLM 설치 사양

최소/권장 하드웨어 사양

vLLM은 최신 GPU의 메모리 대역폭과 병렬 처리 성능을 최대한 활용한다.
최소한 24GB 이상의 VRAM을 가진 NVIDIA GPU가 필요하며,
최신 Llama-2-7b, Mistral-7b, Qwen-7b 등은 24GB VRAM에서 단일 인퍼런스가 가능하다.
더 큰 모델(Llama-2-13b, Qwen-14b, Baichuan-13b, Yi-34b 등)은 48~80GB 이상의 GPU(V100, A100, H100, RTX 6000/8000 등)가 요구된다.
멀티 GPU 환경에서는 tensor parallel 옵션을 활용해, 여러 장의 GPU 메모리를 동시에 쓸 수 있다.
SSD 혹은 NVMe 스토리지는 모델 로딩/다운로드 속도에 큰 영향을 미치니 가능하면 빠른 디스크를 쓰는 게 좋다.

소프트웨어 사양과 드라이버

운영체제는 Ubuntu 20.04/22.04, CentOS, Rocky Linux 등 대부분의 최신 Linux 배포판에서 구동된다.
CUDA는 11.7, 12.1 등 최신 버전이 권장되며, PyTorch 역시 GPU 버전이 필요하다.
cuDNN, NCCL 등의 NVIDIA 라이브러리도 자동 설치되지만, 드라이버 충돌을 막기 위해 항상 최신 버전을 유지하는 게 좋다.
실무에서는 NVIDIA 컨테이너 툴킷을 통해 도커 환경으로 vLLM을 띄우는 경우도 많다.
모든 패키지 호환성 문제를 최소화하려면 공식 Docker 이미지나, Python 가상환경(Virtualenv, Conda 등)을 활용하는 것이 안전하다.

vLLM 윈도우에서 설치 가능한지

공식적인 윈도우 지원 현황

2024년 7월 기준, vLLM은 공식적으로 Linux 환경에서만 지원된다.
윈도우 환경에서는 CUDA, PyTorch, NCCL, cuDNN 등 주요 GPU 가속 라이브러리의 호환성 문제 때문에
직접적인 설치와 구동이 어렵다.
vLLM 개발팀 역시 Github와 공식 문서에서 “리눅스 서버 기반 운영을 권장”한다고 밝히고 있다.

윈도우에서 사용 가능한 우회 방법

어떤 개발자들은 WSL2(Windows Subsystem for Linux 2)를 활용해 윈도우에서 vLLM을 구동하기도 한다.
이 경우 최신 NVIDIA 드라이버, CUDA Toolkit, WSL2용 Ubuntu 환경,
그리고 GPU 패스스루가 가능한 하드웨어가 필요하다.
실제로 WSL2 + CUDA 환경에서 vLLM 서버를 설치하는 사례가 존재하지만,
성능 저하, 드라이버 이슈, 호환성 문제가 빈번하다.
최대한 안전하게 사용하려면 별도의 리눅스 서버, 혹은 클라우드 환경(GCP, AWS, Azure 등)의 GPU 인스턴스를 사용하는 것이 권장된다.

윈도우에서 CPU만으로 vLLM 테스트 가능성

CPU 환경에서도 일부 모델은 디버깅 목적으로 구동 가능하다.
하지만 실전 대규모 LLM 인퍼런스, 특히 배치 및 실시간 API 서비스 용도로는
윈도우+CPU 환경은 성능, 지원 모두 한계가 분명하다.

vLLM이 지원하는 언어모델(가능한 모델)

HuggingFace 호환 모델 전폭 지원

vLLM의 가장 큰 강점은 HuggingFace Hub의 거의 모든 인기 LLM을
별도 커스텀 없이 그대로 서비스할 수 있다는 점이다.
GPT-2/3 스타일의 트랜스포머 아키텍처, Llama 계열, Mistral, Qwen, Baichuan, Falcon, Yi, ChatGLM, Phi, StarCoder, OpenHermes 등
세계적으로 널리 쓰이는 대다수 모델이 바로 적용된다.

대표적으로 많이 쓰이는 모델군

Llama-2, Llama-3, Qwen, Yi, Baichuan, Mistral, Falcon, ChatGLM, OpenChat 등
대부분의 7B, 13B, 14B, 34B, 70B 파라미터 규모 모델이 지원된다.
양자화(4bit, 8bit 등) 및 Int8/FP16/FP32 등 다양한 연산 모드도 설정 가능하다.
vLLM은 최신 GPTQ, AWQ, EXL2 등 커스텀 포맷 모델도 속속 지원을 확대하고 있다.

vLLM에서 지원되지 않는 모델 유형

아직까지 Vision-Language 모델(CLIP, LLaVA 등),
초거대 멀티모달 모델(Gemini, GPT-4o 등)은 공식 API로 바로 호환되지 않는다.
또한 일부 커스텀 사전학습 모델(특수 토크나이저 사용, 구조 커스텀)이 있을 경우
수동 튜닝이 필요하다.
하지만 대다수 텍스트 LLM(텍스트 생성, 채팅, 요약, Q&A 등)은 문제 없이 vLLM으로 곧바로 서빙할 수 있다.

vLLM 도입시 실무 팁과 운영 노하우

모델 관리와 멀티 모델 서빙

여러 개의 LLM 모델을 동시에 서비스할 경우,
서버당 할당 메모리와 GPU 자원을 명확히 나누고,
모델 폴더 구조와 모델명 관리를 깔끔히 해두는 것이 중요하다.
필요하다면 여러 대의 서버를 세팅해 로드밸런싱을 적용하는 것도 좋은 방법이다.

성능 최적화와 배치 처리

vLLM은 내부적으로 패러렐 디코딩, 토큰 페이징 등 고급 성능 최적화 옵션이 많다.
실시간 서비스라면 batch concurrency, max tokens, tensor parallel size 등의 파라미터를
실무에 맞게 튜닝해 최적의 응답속도를 확보하는 것이 중요하다.

운영 모니터링 및 로그

서버 운영 중에는 GPU 사용량, 메모리 점유율, API 응답속도,
에러 로그 등을 실시간으로 모니터링해야 한다.
Prometheus, Grafana, ELK 스택 등과 연동해 운영 로그를 수집하면 장애 대응이 수월하다.

마무리: vLLM 기초만 알아도 LLM 인프라의 90%를 해결한다

이 글에서 살펴본 것처럼
vLLM은 대형 언어모델 서빙·API 서비스·사내 챗봇·프라이빗 LLM 등
최신 AI 인프라 구축의 표준이 되고 있다.

서버 준비, 모델 다운로드, API 서버 실행, API 호출, 성능 최적화,
모델 업그레이드, 운영까지 모든 단계를 체계적으로 익힌다면
누구나 자체 LLM 서빙 서비스를 손쉽게 구축할 수 있다.

윈도우 환경 제약만 유념하고
최신 GPU, 최신 Linux 환경을 활용하면
OpenAI API에 뒤지지 않는 성능과 유연성을 확보할 수 있다.

앞으로 vLLM 생태계는 더 다양한 모델, 더 강력한 최적화 기술,
더 많은 플랫폼 호환성을 갖추며 성장할 것이다.

추가적인 실전 튜닝, 배포 자동화, 멀티유저 서비스화,
커스텀 LLM 적용 등이 궁금하다면 언제든 질문해 달라.
이 글 하나로 vLLM의 시작을 완벽하게 잡아가길 바란다.

vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인