Azure AI Search와 Blob Storage 연동하기, RAG 시스템 구축을 위한 실전 아키텍처

Azure AI Search_Blob Storage 연동

Azure AI Search와 Blob Storage 연동하기, RAG 시스템 구축을 위한 실전 아키텍처 지난 3개월간 RAG(Retrieval-Augmented Generation) 시스템을 구축하면서 깨닫게 된 게 있다. LLM의 가장 큰 문제는 “모르는 것도 마치 아는 것처럼 답변한다”는 거다. 이를 hallucination이라고 부르는데, 정말 위험하다. 금융 상담을 한다고 했는데 완전히 잘못된 정보를 제시하면? 의료 조언을 한다고 했는데 엉뚱한 약을 추천하면? 재앙이다. 하지만 … Read more

Azure Managed Identity로 AI 서비스 연결하기, API Key 없이 안전하게 인증하는 방법

Azure Managed Identity

지난주 금요일, 보안팀에서 한 통의 전화가 왔다. “Azure OpenAI API 키가 GitHub에 커밋된 게 발견됐어요. 즉시 로테이션 해주세요.” 상황이 얼마나 심각한지는 말할 필요가 없다. 한 명의 개발자가 실수로 키를 노출시켰는데, 그 키로 누구나 당신의 AI 서비스를 이용할 수 있다. 월 청구액이 수천 달러에 이를 수도 있다. 이게 처음 겪는 일이 아니다. 여러 프로젝트를 하면서 API … Read more

Azure VM에 vLLM 배포하기, GPU 인스턴스 선택부터 모델 서빙까지

AzureVM_vLLM배포

최근 몇 달간 Azure에서 대형 언어 모델을 서빙해야 하는 상황이 자주 생긴다. 특히 한국 기업들이 AI를 실제 서비스에 녹여내려고 할 때 그렇다. 그럼 대부분 이런 고민을 한다. “OpenAI API만 쓰면 안 되나? 왜 굳이 직접 모델을 서빙해야 하지?” 그 답은 간단하다. 비용, 지연시간, 그리고 데이터 프라이버시다. 직접 모델을 서빙하면 OpenAI 같은 외부 API에 의존하지 않아도 … Read more

Azure App Registration과 App Service 완벽히 구분하기 (2026년 개발자 필수)

Azure_App_Service_Registration

저도 처음 Azure를 배울 때 정말 헷갈렸습니다. “App Registration이 있고, App Service도 있고, 그럼 뭐가 다른데?” 특히 회사에서 Databricks를 연결하고, PostgreSQL을 사용하라고 하면서 “App Registration도 해야 하나요?” 라는 질문을 받을 때마다 제대로 설명하기 어려웠습니다. 그런데 한 가지 깨달았습니다. 이 둘을 올바르게 이해하면 Azure의 80% 이상의 작업이 명확해진다는 것입니다. 이번 글에서는 정말로 실무에 필요한 개념들을 명확하게 … Read more

대화가 길어질수록 느려지는 LLM 에이전트, 최적의 컨텍스트 관리 전략

LLM 컨텍스트 최적화

첫 메시지는 10초, 100번째는 30초가 되는 이유 당신의 에이전트가 처음에는 빠르지만 대화가 길어질수록 느려지는 현상을 겪었나요? 사용자와 나눈 대화가 50개, 100개를 넘어가면서 응답 속도가 점점 떨어집니다. 가끔 타임아웃이 나기도 합니다. 같은 모델인데 왜 이런 일이 일어날까요? 문제는 모델이 아닙니다. 문제는 당신이 과거의 모든 대화를 프롬프트에 집어넣고 있다는 점입니다. 지금 이 순간, 사용자의 마지막 메시지 하나를 … Read more