Azure VM에 vLLM 배포하기, GPU 인스턴스 선택부터 모델 서빙까지

AzureVM_vLLM배포

최근 몇 달간 Azure에서 대형 언어 모델을 서빙해야 하는 상황이 자주 생긴다. 특히 한국 기업들이 AI를 실제 서비스에 녹여내려고 할 때 그렇다. 그럼 대부분 이런 고민을 한다. “OpenAI API만 쓰면 안 되나? 왜 굳이 직접 모델을 서빙해야 하지?” 그 답은 간단하다. 비용, 지연시간, 그리고 데이터 프라이버시다. 직접 모델을 서빙하면 OpenAI 같은 외부 API에 의존하지 않아도 … Read more

Temperature 0과 1의 차이, 고객 서비스는 0.3, 창작은 0.9가 맞다

Temperature_0과1

주요 기사 요약 2026년 최신 논문에서는 다양한 모델 크기(1B부터 80B)에서 온도값 0.1부터 1.9까지의 영향을 체계적으로 분석했다. 특히 질문 답변, 감정 분석, 수학 문제 해결, 창의적 글쓰기, 지시 준수, 번역 등 6개 능력에서 온도에 따른 성능 차이를 확인했다. 연구 결과, 온도 2.0 이상은 일관성 없고 정보 가치가 낮은 텍스트를 생성하는 것으로 나타났다. 특히 주목할 점은 “온도는 … Read more

sLLM과 vLLM 완벽 설치 가이드 – CPU/GPU 환경별 설치부터 FastAPI 배포까지

sLLM_vLLM 설치

대화형 AI 모델을 로컬에서 실행하고 싶지만 어떤 도구를 선택해야 할지 고민이신가요? sLLM과 vLLM은 각각 다른 장점을 가진 훌륭한 LLM 추론 도구입니다. 이 가이드에서는 두 도구의 차이점부터 다양한 설치 방법, 그리고 FastAPI를 통한 서비스 배포까지 모든 과정을 상세하게 다뤄보겠습니다. sLLM vs vLLM: 핵심 차이점 이해하기 sLLM (Small Language Model Manager)의 특징 sLLM은 작은 규모의 언어 모델들을 … Read more