로컬 AI 시대의 시작, 올라마로 누구나 강력한 언어 모델을 직접 운영하다

올라마_모델운영

요약 올라마는 로컬 머신에서 대형 언어 모델을 간단하게 실행할 수 있는 오픈소스 플랫폼으로, 최근 v0.10.0 업데이트를 통해 더욱 강력해졌습니다. 이 글에서는 올라마의 최신 기술을 활용한 10가지 실전 활용 방법을 소개합니다. 개인 PC부터 엔터프라이즈 서버까지, 올라마로 할 수 있는 모든 것을 알아보세요. “클라우드 AI 서비스 비용이 너무 비싸다” “내 데이터를 외부 서버에 보내고 싶지 않다” “인터넷 … Read more

L40s에서 최신 vLLM 기반 Gemma·Qwen으로 구축하는 한국어 RAG 모델: 성능과 가성비 모두 잡는 방법

L40S_vLLM_Gemma_Qwen

최근 생성형 AI 분야에서는 단순한 텍스트 생성 모델을 넘어서, 검색 기반 생성(RAG, Retrieval-Augmented Generation) 방식이 뜨거운 관심을 받고 있습니다. 특히 한국어와 같이 다국어 지원이 완벽하지 않은 언어에서는, RAG 구조를 활용해 신뢰도 높은 정보를 생성하는 것이 매우 중요합니다. 이번 포스팅에서는 최신 vLLM 환경에서 Google의 Gemma 및 Alibaba의 Qwen 모델을 활용하여, L40s GPU 환경에서 구동 가능한 가성비 … Read more