FastAPI RAG 서버가 느려진 이유! 비동기인데 왜 막히나 싶었던 디버깅 기록

fastapi_rag_비동기

분명히 비동기로 짰는데 왜 느려지는 거지. RAG 서버 운영하면서 가장 많이 했던 생각이 이거다. FastAPI는 처음부터 async를 전제로 설계된 프레임워크다. 동시성 처리에 강하다는 게 거의 상식처럼 통한다. 그런데 실제로 RAG 파이프라인을 얹어서 운영해보면, “비동기로 썼다”는 사실 자체가 성능을 보장해주지 않는다는 걸 몸으로 배운다. 이 글은 내가 운영하던 RAG API가 동시 요청 몇 개만 들어와도 응답 … Read more

Qdrant vs PostgreSQL, RAG 검색 인프라 두 가지 다 운영해본 결론

Qdrant vs PostgreSQL

얼마 전에 새 RAG 파이프라인을 설계할 일이 있었다. 기존에 운영하던 시스템은 PostgreSQL에 pgvector를 얹어서 벡터 검색까지 한 곳에서 처리하는 구조였다. 그런데 이번에는 검색 정확도 요구사항이 더 높았고, 팀 내부에서 “Qdrant로 가야 하지 않냐”는 의견이 나왔다. 그래서 결국 둘 다 직접 붙여보고 비교하게 됐다. 이 글은 그 과정에서 겪은 걸 정리한 글이다. 어느 쪽이 “더 좋다”는 … Read more

Claude Code를 RAG 파이프라인에 붙여봤다. 코드 안 짜고 디버깅한 날의 기록

claude_code_rag_pipeline

올해 초, 앤트로픽이 조용히 하나의 숫자를 꺼냈다. 자사 프로덕션 코드베이스에 병합되는 코드의 80% 이상이 이제 Claude가 작성한다는 것. 심지어 내부 엔지니어 한 명은 5개월째 코드를 직접 한 줄도 작성하지 않았다고 했다. 처음 이 글을 봤을 때 솔직히 반응이 두 갈래로 갈렸다. “그게 가능하다고?” 하는 의심과, “그럼 나도 한번 해봐야 하는 거 아닌가” 하는 호기심. 나는 … Read more

앤트로픽이 직접 꺼낸 말, “AI가 스스로를 만들기 시작했다”, “에이전트 콘웨이”

앤트로픽_콘웨이

2026년 6월 4일, 앤트로픽이 블로그에 글 하나를 올렸다. 제목은 조용했지만 내용은 조용하지 않았다. “When AI Builds Itself.” AI가 스스로를 만들고 있다는 선언. 그 안에 이런 숫자가 박혀 있었다. 현재 앤트로픽 프로덕션 코드베이스에 병합되는 코드의 80% 이상이 클로드가 작성한 것이다. 엔지니어 한 명은 5개월째 코드를 한 줄도 직접 쓰지 않았다고 한다. 클로드 코드가 2025년 2월에 출시되기 … Read more

중국은 미니맥스 M3 모델 가격을 부수고, 구글은 노트북LM을 무기로 바꿨다

미니맥스 M3

며칠 전 아침, AI 뉴스 두 개를 거의 동시에 봤다. 하나는 중국 미니맥스가 ‘M3’라는 모델을 내놨는데 GPT-5.5를 일부 벤치마크에서 앞서면서 가격은 미국 모델의 5~10%밖에 안 된다는 소식. 다른 하나는 구글이 노트북LM에 ‘캔버스’를 붙여서 문서 분석 도구를 통째로 작업 플랫폼으로 바꾸려 한다는 소식. 처음엔 그냥 별개의 뉴스라고 생각했다. 그런데 곱씹을수록 둘이 같은 그림의 양쪽 끝을 보여주고 … Read more