L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more

AI와 운영(Ops) 융합시대: LLMOps, MLOps, RAGOps부터 Agentic AI까지 완벽 해부

LLMOPS_MLOPS

주요 내용 요약 2025년 현재, AI 기술과 운영(Operations)이 결합된 다양한 신조어들이 등장하며 기업의 AI 도입 전략을 근본적으로 바꾸고 있습니다. LLMOps는 MLOps(머신러닝 운영)의 하위 범주로, 대형언어모델(LLM)의 라이프사이클 프로세스를 관리하는 관행과 도구를 의미하며, 기업 환경에서 LLM 기반 복합 시스템의 60%가 어떤 형태로든 검색 증강 생성(RAG)을 활용하고 있어 RAGOps의 중요성이 부각되고 있습니다. 동시에 2025년에는 생성형 AI를 사용하는 기업의 … Read more

데이터브릭스 Workspace 완벽 가이드 – 초보자도 쉽게 이해하는 메뉴별 활용법

데이터브릭스 활용

데이터브릭스를 처음 접하시는 분들이라면 Workspace에 들어가자마자 수많은 메뉴들 때문에 어디서부터 시작해야 할지 막막하실 거예요. 마치 새로운 도시에 도착해서 지도 없이 길을 찾는 기분이랄까요? 오늘은 데이터브릭스 Workspace의 모든 메뉴를 체계적으로 정리해서, 여러분이 데이터 분석의 여정을 순조롭게 시작할 수 있도록 도와드릴게요. 데이터브릭스 Workspace란 무엇인가요? 데이터브릭스 Workspace는 데이터 사이언티스트, 엔지니어, 비즈니스 분석가들이 협업하며 데이터 작업을 수행하는 통합 환경이에요. … Read more

sLLM과 vLLM 완벽 설치 가이드 – CPU/GPU 환경별 설치부터 FastAPI 배포까지

sLLM_vLLM 설치

대화형 AI 모델을 로컬에서 실행하고 싶지만 어떤 도구를 선택해야 할지 고민이신가요? sLLM과 vLLM은 각각 다른 장점을 가진 훌륭한 LLM 추론 도구입니다. 이 가이드에서는 두 도구의 차이점부터 다양한 설치 방법, 그리고 FastAPI를 통한 서비스 배포까지 모든 과정을 상세하게 다뤄보겠습니다. sLLM vs vLLM: 핵심 차이점 이해하기 sLLM (Small Language Model Manager)의 특징 sLLM은 작은 규모의 언어 모델들을 … Read more

Ollama와 vLLM으로 Gemma 3 27B 실행 완벽 설치 가이드

ollama_vllm_gemma3_27b

Google의 최신 오픈소스 언어 모델인 Gemma 3 27B는 단일 GPU에서 실행할 수 있는 모델 중 최고 성능을 자랑합니다. 이번 포스팅에서는 Ollama를 사용한 간편한 실행 방법과 고성능 추론을 위한 vLLM 설치 및 사용 방법을 자세히 알아보겠습니다. Gemma 3 27B란? Gemma 3 27B는 Google의 Gemini 2.0과 동일한 기술을 기반으로 개발된 270억 개 파라미터를 가진 오픈소스 언어 모델입니다. … Read more

Windows에서 Kubernetes로 Azure AKS에 Nginx + React 배포하기

kubernetes 배포

이번 포스팅은, Windows PC에서 Kubernetes를 활용하여 Nginx와 React 애플리케이션을 Azure AKS(Azure Kubernetes Service)에 배포하는 전체 과정을 단계별로 설명합니다. 1. 개발 환경 구성 1.1 Docker Desktop 설치 및 Kubernetes 활성화 Docker Desktop 설치 Docker Desktop for Windows 다운로드 설치 시 “Use WSL 2 instead of Hyper-V” 옵션 선택 설치 완료 후 재부팅 Kubernetes 활성화 Docker Desktop … Read more

2025년 최고의 벡터 데이터베이스 비교 분석: Pinecone, Qdrant, pgvector 심층 리뷰

벡터 데이터베이스

벡터 데이터베이스의 중요성 현재 AI 기술이 급속도로 발전하면서 비구조화된 데이터를 효율적으로 처리하고 검색할 수 있는 벡터 데이터베이스의 중요성이 크게 부각되고 있습니다. 특히 ChatGPT와 같은 대화형 AI, 추천 시스템, 이미지 검색, 문서 유사도 분석 등 다양한 분야에서 벡터 임베딩을 활용한 검색이 핵심 기술로 자리잡았습니다. 전통적인 키워드 기반 검색과 달리, 벡터 검색은 의미적 유사성을 바탕으로 동작하기 때문에 … Read more

2025년 완벽한 노트북 구매 가이드: AI모델, LLM 시대에 맞는 현명한 선택법

노트북AI

노트북을 사려고 하면 정말 머리가 아프다. 예전에는 CPU만 좋으면 되었는데, 이제는 GPU가 중요하고, AI 시대라고 해서 VRAM까지 신경 써야 한다. 매장에 가면 판매원은 비싼 것만 추천하고, 인터넷을 찾아보면 정보가 너무 많아서 오히려 더 헷갈린다. 나도 최근에 노트북을 바꾸면서 정말 많은 시행착오를 겪었다. 처음에는 단순히 브랜드와 가격만 보고 골랐다가, 나중에 AI 작업을 해보니 GPU가 발목을 잡더라. … Read more

vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인

vllm 설치, 세팅

vLLM이란 무엇이고 왜 각광받는가 vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU … Read more

sLLM, SLM, LLM, vLLM 모델 종류와 차이점 안내

sllm

배경 – AI 언어 모델의 발전과 분류 필요성 최근 몇 년 사이에 자연어 처리(NLP) 분야는 급격한 변화를 겪었습니다. 특히 대규모 언어 모델(LLM, Large Language Model)의 등장으로, 기계 번역ㆍ문서 요약ㆍ챗봇ㆍ코드 생성 등 다양한 애플리케이션이 발전했지요. 하지만 모델의 크기, 용도, 추론 방식에 따라 적합한 솔루션이 다르고, 이를 구분하기 위한 용어도 여럿 등장했습니다. 전통적 LLM은 수십억~수백억 개 파라미터로 … Read more