vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인

vllm 설치, 세팅

vLLM이란 무엇이고 왜 각광받는가 vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU … Read more

sLLM, SLM, LLM, vLLM 모델 종류와 차이점 안내

sllm

배경 – AI 언어 모델의 발전과 분류 필요성 최근 몇 년 사이에 자연어 처리(NLP) 분야는 급격한 변화를 겪었습니다. 특히 대규모 언어 모델(LLM, Large Language Model)의 등장으로, 기계 번역ㆍ문서 요약ㆍ챗봇ㆍ코드 생성 등 다양한 애플리케이션이 발전했지요. 하지만 모델의 크기, 용도, 추론 방식에 따라 적합한 솔루션이 다르고, 이를 구분하기 위한 용어도 여럿 등장했습니다. 전통적 LLM은 수십억~수백억 개 파라미터로 … Read more