RAG의 진짜 병목은 LLM이 아니라 데이터 파이프라인 – Apache NiFi로 전처리 자동화

apache_nifi_전처리자동화

RAG 시스템을 처음 만들 때 나는 LLM 선택과 프롬프트 튜닝에 거의 모든 시간을 쏟았다. 어떤 임베딩 모델이 좋은지, 청크 크기를 얼마로 할지, 리랭커를 붙일지 말지. 그런데 막상 프로덕션에 올리고 나니 진짜 골치 아픈 건 전혀 다른 데 있었다. “어제 인사팀이 게시판에 올린 새 규정, 챗봇이 왜 모르지?” 이 한마디가 모든 걸 말해준다. RAG의 답변 품질은 … Read more

하이닉스 400만원 간다는 말, AI 인프라 관점에서 본 메모리 슈퍼사이클

하아닉스_메모리

1년 전쯤 누가 “SK하이닉스 400만 원 간다”고 했으면 나는 속으로 웃었을 거다. 그런데 2026년 5월 말, SK하이닉스 주가는 이미 233만 원을 찍었다. 삼성전자도 31만 원을 넘어섰다. 노무라증권은 삼성전자 목표가 59만 원, 하이닉스 400만 원을 제시했다. 더 이상 비웃을 수가 없는 숫자가 됐다. 솔직히 나는 평소에 주식 얘기를 잘 안 한다. 이 블로그도 주가 분석 블로그가 … Read more

AI 추론 시대 본격화, 인텔·SK하이닉스·구글이 같은 그림을 그리는 이유

AI추론시대본격화

인텔 신임 CEO 립부 탄이 1분기 실적 발표 자리에서 슬쩍 흘린 숫자 하나가 며칠째 머릿속에서 맴돌고 있다. “AI 학습은 CPU 1개와 GPU 7~8개를 조합했다면, AI 추론은 CPU 1개와 GPU 3~4개를 결합한다.” 그러면서 그는 “에이전틱(자율) AI와 멀티 에이전트 시대에는 반대 방향으로 바뀔 수도 있다”고 덧붙였다. 별것 아닌 비율 이야기처럼 들리지만, 인프라 쪽 일을 해본 사람이라면 이 … Read more

로컬 AI를 직접 운영하면서 알게 된 것들, 클라우드 없이 현실적으로 시작하는 법

로컬AI운영

회사에서 ChatGPT 쓰다가 한 번쯤 이런 생각 해본 적 없는가. “이 데이터, 외부 서버로 나가도 괜찮은 건가?” 실제로 2023년 삼성전자 반도체 부문에서 챗GPT에 소스코드를 입력한 사건 이후, 국내 대기업 상당수가 외부 AI 서비스 이용을 제한하기 시작했다. 그리고 2026년 지금, 상황은 더 심각해졌다. AI 기본법 시행을 앞두고 데이터 거버넌스에 대한 압박이 커지면서, 기업이든 개인 개발자든 “내 … Read more

Azure VM에 vLLM 배포하기, GPU 인스턴스 선택부터 모델 서빙까지

AzureVM_vLLM배포

최근 몇 달간 Azure에서 대형 언어 모델을 서빙해야 하는 상황이 자주 생긴다. 특히 한국 기업들이 AI를 실제 서비스에 녹여내려고 할 때 그렇다. 그럼 대부분 이런 고민을 한다. “OpenAI API만 쓰면 안 되나? 왜 굳이 직접 모델을 서빙해야 하지?” 그 답은 간단하다. 비용, 지연시간, 그리고 데이터 프라이버시다. 직접 모델을 서빙하면 OpenAI 같은 외부 API에 의존하지 않아도 … Read more