Azure VM에 vLLM 배포하기, GPU 인스턴스 선택부터 모델 서빙까지

AzureVM_vLLM배포

최근 몇 달간 Azure에서 대형 언어 모델을 서빙해야 하는 상황이 자주 생긴다. 특히 한국 기업들이 AI를 실제 서비스에 녹여내려고 할 때 그렇다. 그럼 대부분 이런 고민을 한다. “OpenAI API만 쓰면 안 되나? 왜 굳이 직접 모델을 서빙해야 하지?” 그 답은 간단하다. 비용, 지연시간, 그리고 데이터 프라이버시다. 직접 모델을 서빙하면 OpenAI 같은 외부 API에 의존하지 않아도 … Read more

AI와 운영(Ops) 융합시대: LLMOps, MLOps, RAGOps부터 Agentic AI까지 완벽 해부

LLMOPS_MLOPS

주요 내용 요약 2025년 현재, AI 기술과 운영(Operations)이 결합된 다양한 신조어들이 등장하며 기업의 AI 도입 전략을 근본적으로 바꾸고 있습니다. LLMOps는 MLOps(머신러닝 운영)의 하위 범주로, 대형언어모델(LLM)의 라이프사이클 프로세스를 관리하는 관행과 도구를 의미하며, 기업 환경에서 LLM 기반 복합 시스템의 60%가 어떤 형태로든 검색 증강 생성(RAG)을 활용하고 있어 RAGOps의 중요성이 부각되고 있습니다. 동시에 2025년에는 생성형 AI를 사용하는 기업의 … Read more