L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more

슈퍼바이저 기반 멀티에이전트 통신 시스템에서 JSON과 프롬프트 활용법

슈퍼바이저 기반 멀티에이전트 json_prompt_활용법

최근 AI 에이전트 기술이 급속도로 발전하면서 하나의 거대한 에이전트보다는 여러 개의 전문화된 에이전트가 협력하는 멀티 에이전트 시스템이 주목받고 있습니다. 특히 슈퍼바이저(Supervisor) 기반 멀티 에이전트 아키텍처에서는 JSON 포맷과 프롬프트 엔지니어링이 핵심적인 역할을 합니다. 이번 글에서는 LLM 초보자분들을 위해 이러한 시스템이 어떻게 작동하는지 상세히 알아보겠습니다. 멀티에이전트 시스템이란 무엇인가 멀티에이전트 시스템은 여러 개의 독립적인 AI 에이전트가 협력하여 복잡한 … Read more

LangGraph 워크플로우와 에이전트 완벽 이해 가이드 – 초보자를 위한 실무 중심 설명

LangGraph_에이전트

AI 개발에서 워크플로와 에이전트라는 용어를 자주 들어보셨을 겁니다. 하지만 정확히 무엇이고 어떻게 다른지, 그리고 언제 어떤 것을 사용해야 하는지 헷갈리시는 분들이 많습니다. 오늘은 LangGraph를 통해 이 개념들을 쉽고 명확하게 설명드리겠습니다. 워크플로와 에이전트, 무엇이 다른가요? 먼저 핵심 차이점부터 이해해봅시다. **워크플로(Workflow)**는 미리 정해진 순서대로 일하는 직원과 같습니다. 매뉴얼이 있고, 단계별로 정확히 따라하죠. 반면 **에이전트(Agent)**는 상황을 보고 스스로 … Read more

sLLM과 vLLM 완벽 설치 가이드 – CPU/GPU 환경별 설치부터 FastAPI 배포까지

sLLM_vLLM 설치

대화형 AI 모델을 로컬에서 실행하고 싶지만 어떤 도구를 선택해야 할지 고민이신가요? sLLM과 vLLM은 각각 다른 장점을 가진 훌륭한 LLM 추론 도구입니다. 이 가이드에서는 두 도구의 차이점부터 다양한 설치 방법, 그리고 FastAPI를 통한 서비스 배포까지 모든 과정을 상세하게 다뤄보겠습니다. sLLM vs vLLM: 핵심 차이점 이해하기 sLLM (Small Language Model Manager)의 특징 sLLM은 작은 규모의 언어 모델들을 … Read more

sLLM, SLM, LLM, vLLM 모델 종류와 차이점 안내

sllm

배경 – AI 언어 모델의 발전과 분류 필요성 최근 몇 년 사이에 자연어 처리(NLP) 분야는 급격한 변화를 겪었습니다. 특히 대규모 언어 모델(LLM, Large Language Model)의 등장으로, 기계 번역ㆍ문서 요약ㆍ챗봇ㆍ코드 생성 등 다양한 애플리케이션이 발전했지요. 하지만 모델의 크기, 용도, 추론 방식에 따라 적합한 솔루션이 다르고, 이를 구분하기 위한 용어도 여럿 등장했습니다. 전통적 LLM은 수십억~수백억 개 파라미터로 … Read more