vLLM 배치 사이즈부터 모델 스왑까지 직접 운영

vLLM_배치사이즈_모델스왑

공식 문서는 설치까지는 친절하다. 그 다음부터가 문제다. vLLM 깃허브 star 수는 이미 수만을 넘었고, 한국어로 된 설치 가이드도 제법 나온다. 그런데 막상 추론 서버를 실제 운영 환경에 올려보면 공식 문서가 다루지 않는 영역이 금방 나타난다. GPU 메모리 설정을 어떻게 잡아야 안정적으로 돌아가는지, 배치 사이즈가 응답 시간에 어떻게 영향을 주는지, 모델을 스왑해야 할 때 서비스를 얼마나 … Read more

MCP 서버를 사내 RAG 시스템에 직접 연결 성공

MCP_RAG

MCP라는 게 처음 나왔을 때는 솔직히 “또 새로운 표준 하나 더 생겼네” 싶었다. 표준이라는 게 너무 많이 생기다 보면 결국 안 쓰게 되는 경우가 많으니까. 그런데 막상 사내 RAG 시스템에 직접 붙여보니까 생각이 달라졌다. 설정 자체는 놀라울 정도로 간단했는데, 프로덕션 환경에 진짜로 올리려고 하니 그제서야 진짜 고민이 시작됐다. 이 글은 그 과정을 정리한 거다. MCP가 … Read more

RAG의 진짜 병목은 LLM이 아니라 데이터 파이프라인 – Apache NiFi로 전처리 자동화

apache_nifi_전처리자동화

RAG 시스템을 처음 만들 때 나는 LLM 선택과 프롬프트 튜닝에 거의 모든 시간을 쏟았다. 어떤 임베딩 모델이 좋은지, 청크 크기를 얼마로 할지, 리랭커를 붙일지 말지. 그런데 막상 프로덕션에 올리고 나니 진짜 골치 아픈 건 전혀 다른 데 있었다. “어제 인사팀이 게시판에 올린 새 규정, 챗봇이 왜 모르지?” 이 한마디가 모든 걸 말해준다. RAG의 답변 품질은 … Read more

하이닉스 400만원 간다는 말, AI 인프라 관점에서 본 메모리 슈퍼사이클

하아닉스_메모리

1년 전쯤 누가 “SK하이닉스 400만 원 간다”고 했으면 나는 속으로 웃었을 거다. 그런데 2026년 5월 말, SK하이닉스 주가는 이미 233만 원을 찍었다. 삼성전자도 31만 원을 넘어섰다. 노무라증권은 삼성전자 목표가 59만 원, 하이닉스 400만 원을 제시했다. 더 이상 비웃을 수가 없는 숫자가 됐다. 솔직히 나는 평소에 주식 얘기를 잘 안 한다. 이 블로그도 주가 분석 블로그가 … Read more

오픈클로 MCP 연동 가이드 – Gmail, GitHub, Slack을 AI 에이전트에 연결하는 방법

오픈클로_MCP연동

오픈클로를 한동안 써보면 이런 순간이 온다. “이메일 정리해줘”라고 했더니 잘 해주고, “일정 확인해줘”라고 했더니 잘 알려준다. 그런데 어느 날 “GitHub에서 버그 이슈 확인해줘”라고 했더니 멈칫한다. “Notion에 오늘 회의록 정리해줘”라고 했더니 할 수 없다고 한다. 기본 스킬만으로는 닿지 않는 영역이 생기기 시작하는 거다. 여기서 두 가지 길이 갈린다. 하나는 커스텀 스킬을 직접 만들어서 API를 연동하는 방법이고, … Read more