vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인
vLLM이란 무엇이고 왜 각광받는가 vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU … Read more