vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인

vllm 설치, 세팅

vLLM이란 무엇이고 왜 각광받는가 vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU … Read more

sLLM, SLM, LLM, vLLM 모델 종류와 차이점 안내

sllm

배경 – AI 언어 모델의 발전과 분류 필요성 최근 몇 년 사이에 자연어 처리(NLP) 분야는 급격한 변화를 겪었습니다. 특히 대규모 언어 모델(LLM, Large Language Model)의 등장으로, 기계 번역ㆍ문서 요약ㆍ챗봇ㆍ코드 생성 등 다양한 애플리케이션이 발전했지요. 하지만 모델의 크기, 용도, 추론 방식에 따라 적합한 솔루션이 다르고, 이를 구분하기 위한 용어도 여럿 등장했습니다. 전통적 LLM은 수십억~수백억 개 파라미터로 … Read more

LLaMA 설치부터 LM Studio 활용 실전 가이드(2025년)

llama

왜 LLaMA가 주목받는가? Meta(구 페이스북)가 개발한 LLaMA 시리즈는 2023년 첫 출시 이후로 오픈소스 LLM(대규모 언어 모델)의 대표 주자가 되었습니다. LLaMA는 ChatGPT, Claude, Gemini 등 상업용 AI에 비해 개방성과 유연성, 그리고 현실적인 성능 대비 리소스 최적화로 연구자, 개발자, 스타트업은 물론 기업 연구소에서도 널리 사용되고 있습니다. 2024년 말에는 LLaMA 3가 출시되었고, 다양한 파라미터 버전(8B, 70B 등)과 함께 … Read more

구글 Gemma 모델 설치부터 활용까지 (2025년)

gemma

  안녕하세요, 요즘 AI 모델에 대한 관심, 정말 뜨겁죠. ChatGPT는 물론이고 Mistral, Claude, LLaMA 등 다양한 오픈소스 LLM이 쏟아져 나오고 있는데요, 오늘은 이 중에서도 개발자 친화적인 구글의 최신 모델 Gemma에 대해 이야기해보려 합니다. 2024년 말, 그리고 2025년 상반기까지 가장 핫하게 떠오른 이름 중 하나가 바로 Gemma입니다. “Gemma가 뭐길래?” 하고 궁금하셨던 분들을 위해, 이 글에서는 Gemma … Read more

올라마(OLLAMA) 설치 및 사용 가이드 (2025년 최신)

올라마

  AI 언어 모델은 점점 더 작아지고, 가볍고, 빠르게 실행 가능한 형태로 진화하고 있습니다. 대표적인 사례 중 하나가 바로 OLLAMA(올라마)입니다. 최근 Hugging Face, LM Studio 등과 함께 많은 주목을 받고 있는 올라마는 로컬에서 대형 언어 모델(LLM)을 쉽게 실행하고 활용할 수 있는 프레임워크입니다. 본 글에서는 올라마의 설치 방법, 기본 사용법, 최신 버전 비교, 활용 사례, 그리고 … Read more