로컬 AI 시대의 시작, 올라마로 누구나 강력한 언어 모델을 직접 운영하다

올라마_모델운영

요약 올라마는 로컬 머신에서 대형 언어 모델을 간단하게 실행할 수 있는 오픈소스 플랫폼으로, 최근 v0.10.0 업데이트를 통해 더욱 강력해졌습니다. 이 글에서는 올라마의 최신 기술을 활용한 10가지 실전 활용 방법을 소개합니다. 개인 PC부터 엔터프라이즈 서버까지, 올라마로 할 수 있는 모든 것을 알아보세요. “클라우드 AI 서비스 비용이 너무 비싸다” “내 데이터를 외부 서버에 보내고 싶지 않다” “인터넷 … Read more

L40S GPU 서버에 vLLM으로 Qwen3-30B 모델 띄우기

L40S_GPU_Qwen3_30B

핵심 요약 새로 구매한 L40S GPU 서버에 Docker 기반 vLLM을 설치하고 Qwen3-30B-A3B-Instruct 모델을 구동하는 전체 과정을 다룹니다. 서버 초기 설정부터 모델 실행까지 실제 작업 순서대로 정리했으며, 중간에 발생할 수 있는 문제 해결 방법도 함께 담았습니다. 요즘 AI 모델 서빙에 관심 있는 분들 사이에서 vLLM이 화제입니다. 특히 대용량 언어 모델을 빠르고 효율적으로 운영할 수 있다는 점 … Read more

L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more

AI와 운영(Ops) 융합시대: LLMOps, MLOps, RAGOps부터 Agentic AI까지 완벽 해부

LLMOPS_MLOPS

주요 내용 요약 2025년 현재, AI 기술과 운영(Operations)이 결합된 다양한 신조어들이 등장하며 기업의 AI 도입 전략을 근본적으로 바꾸고 있습니다. LLMOps는 MLOps(머신러닝 운영)의 하위 범주로, 대형언어모델(LLM)의 라이프사이클 프로세스를 관리하는 관행과 도구를 의미하며, 기업 환경에서 LLM 기반 복합 시스템의 60%가 어떤 형태로든 검색 증강 생성(RAG)을 활용하고 있어 RAGOps의 중요성이 부각되고 있습니다. 동시에 2025년에는 생성형 AI를 사용하는 기업의 … Read more

데이터브릭스 Workspace 완벽 가이드 – 초보자도 쉽게 이해하는 메뉴별 활용법

데이터브릭스 활용

데이터브릭스를 처음 접하시는 분들이라면 Workspace에 들어가자마자 수많은 메뉴들 때문에 어디서부터 시작해야 할지 막막하실 거예요. 마치 새로운 도시에 도착해서 지도 없이 길을 찾는 기분이랄까요? 오늘은 데이터브릭스 Workspace의 모든 메뉴를 체계적으로 정리해서, 여러분이 데이터 분석의 여정을 순조롭게 시작할 수 있도록 도와드릴게요. 데이터브릭스 Workspace란 무엇인가요? 데이터브릭스 Workspace는 데이터 사이언티스트, 엔지니어, 비즈니스 분석가들이 협업하며 데이터 작업을 수행하는 통합 환경이에요. … Read more