AI Infra | AI Practice Notes

Ollama와 vLLM으로 Gemma 3 27B 실행 완벽 설치 가이드

2026-03-022025-09-04 by Tech Leader

Google의 최신 오픈소스 언어 모델인 Gemma 3 27B는 단일 GPU에서 실행할 수 있는 모델 중 최고 성능을 자랑합니다. 이번 포스팅에서는 Ollama를 사용한 간편한 실행 방법과 고성능 추론을 위한 vLLM 설치 및 사용 방법을 자세히 알아보겠습니다. Gemma 3 27B란? Gemma 3 27B는 Google의 Gemini 2.0과 동일한 기술을 기반으로 개발된 270억 개 파라미터를 가진 오픈소스 언어 모델입니다. … Read more

Windows에서 Kubernetes로 Azure AKS에 Nginx + React 배포하기

2026-02-282025-08-24 by Tech Leader

이번 포스팅은, Windows PC에서 Kubernetes를 활용하여 Nginx와 React 애플리케이션을 Azure AKS(Azure Kubernetes Service)에 배포하는 전체 과정을 단계별로 설명합니다. 1. 개발 환경 구성 1.1 Docker Desktop 설치 및 Kubernetes 활성화 Docker Desktop 설치 Docker Desktop for Windows 다운로드 설치 시 “Use WSL 2 instead of Hyper-V” 옵션 선택 설치 완료 후 재부팅 Kubernetes 활성화 Docker Desktop … Read more

2025년 최고의 벡터 데이터베이스 비교 분석: Pinecone, Qdrant, pgvector 심층 리뷰

2026-02-182025-08-20 by Tech Leader

벡터 데이터베이스의 중요성 현재 AI 기술이 급속도로 발전하면서 비구조화된 데이터를 효율적으로 처리하고 검색할 수 있는 벡터 데이터베이스의 중요성이 크게 부각되고 있습니다. 특히 ChatGPT와 같은 대화형 AI, 추천 시스템, 이미지 검색, 문서 유사도 분석 등 다양한 분야에서 벡터 임베딩을 활용한 검색이 핵심 기술로 자리잡았습니다. 전통적인 키워드 기반 검색과 달리, 벡터 검색은 의미적 유사성을 바탕으로 동작하기 때문에 … Read more

2025년 완벽한 노트북 구매 가이드: AI모델, LLM 시대에 맞는 현명한 선택법

2026-02-182025-08-04 by Tech Leader

노트북을 사려고 하면 정말 머리가 아프다. 예전에는 CPU만 좋으면 되었는데, 이제는 GPU가 중요하고, AI 시대라고 해서 VRAM까지 신경 써야 한다. 매장에 가면 판매원은 비싼 것만 추천하고, 인터넷을 찾아보면 정보가 너무 많아서 오히려 더 헷갈린다. 나도 최근에 노트북을 바꾸면서 정말 많은 시행착오를 겪었다. 처음에는 단순히 브랜드와 가격만 보고 골랐다가, 나중에 AI 작업을 해보니 GPU가 발목을 잡더라. … Read more

vLLM 기초, 서버 설치부터 세팅, 호출 방식 및 사양, 언어 모델 확인

2026-02-182025-07-19 by Tech Leader

vLLM이란 무엇이고 왜 각광받는가 vLLM은 최근 AI/LLM 분야에서 급부상하고 있는 초고속 대규모 언어모델 서빙 엔진이다. vLLM의 이름에서 볼 수 있듯이, ‘Virtual’ + ‘LLM(Large Language Model)’을 의미하며, 여러 대형 언어모델을 GPU 환경에서 최대 효율로 빠르게 서비스할 수 있도록 설계되어 있다. 기존 트랜스포머 모델 서빙 엔진들이 가진 비효율성, 예를 들어 토크나이저 처리 병목, 배치 성능 저하, GPU … Read more