vLLM 배치 사이즈부터 모델 스왑까지 직접 운영

vLLM_배치사이즈_모델스왑

공식 문서는 설치까지는 친절하다. 그 다음부터가 문제다. vLLM 깃허브 star 수는 이미 수만을 넘었고, 한국어로 된 설치 가이드도 제법 나온다. 그런데 막상 추론 서버를 실제 운영 환경에 올려보면 공식 문서가 다루지 않는 영역이 금방 나타난다. GPU 메모리 설정을 어떻게 잡아야 안정적으로 돌아가는지, 배치 사이즈가 응답 시간에 어떻게 영향을 주는지, 모델을 스왑해야 할 때 서비스를 얼마나 … Read more