구글 터보퀀트(TurboQuant), vLLM 서빙 엔지니어가 직접 뜯어본 KV 캐시 혁명의 실체

구글터보퀀트

지난주 내 뉴스 피드가 갑자기 난리가 났다. 삼성전자, SK하이닉스 주가 폭락. 마이크론 7% 급락. 반도체주 일제히 흔들. 원인은 단 하나, 구글이 논문 하나 발표한 것 때문이었다. 터보퀀트(TurboQuant). LLM 메모리를 6배 줄이고 속도는 8배 올린다는 기술. 솔직히 처음 이 뉴스를 봤을 때 반응이 두 갈래로 갈렸다. 한쪽에서는 “구글의 딥시크 모먼트다, 반도체 시대 끝났다”는 패닉이 나왔고, 다른 … Read more

오픈클로 OpenAI 인수 이후 – 2026 AI 에이전트 전쟁의 판도

오픈클로_OpenAI인수

2026년 2월 15일, 일요일 아침. 샘 알트먼이 X(트위터)에 짧은 글 하나를 올렸다. “피터 스타인버거가 OpenAI에 합류합니다. 차세대 개인 에이전트 개발을 이끌게 됩니다.” 같은 날 스타인버거도 한 줄을 남겼다. “에이전트를 모두에게 가져다주기 위해 OpenAI에 합류합니다.” 트윗 두 개. 보도 자료도, 기자회견도 없었다. 그런데 이 조용한 발표가 AI 업계 전체를 뒤흔들었다. 나는 이 소식을 듣고 두 가지가 … Read more

오픈클로 도커 배포와 클라우드 서버 구축 – 24시간 AI 비서 셋업

오픈클로_도커배포

오픈클로를 내 노트북에 설치하고 처음 며칠은 신세계였다. 텔레그램으로 “메일 정리해줘”라고 보내면 진짜 정리해주고, “내일 일정 알려줘”라고 하면 브리핑이 날아왔다. 그런데 문제가 생겼다. 노트북 덮개를 닫으면 에이전트도 같이 잠든다. 외출하면 멈추고, 밤에 자면 멈추고. 24시간 돌아가는 비서가 하루에 8시간만 일하는 꼴이었다. 결국 VPS로 옮겼다. 월 5천 원짜리 서버에 도커로 올려놨더니, 진짜 24시간 365일 꺼지지 않는 AI … Read more

오픈클로 AI 모델 연결 가이드 – 제미나이 무료 연동부터 클로드, GPT, 딥시크까지

오픈클로_AI모델연결

오픈클로를 처음 설치하면 가장 먼저 부딪히는 질문이 있다. “어떤 AI 모델을 연결해야 하지?” 온보딩 위저드에서 Anthropic, OpenAI, Google, DeepSeek 등 선택지가 쭉 나오는데, 각각 뭐가 다르고, 비용은 얼마나 들고, 내 용도에는 뭐가 맞는지 처음에는 감이 안 온다. 나도 그랬다. 처음에는 무조건 제일 좋다는 클로드 Opus를 연결했다가, 한 달 API 비용을 보고 깜짝 놀랐다. 하트비트 점검이나 … Read more

Chrome + Gemini API 흐름 분석! Prompt는 어떻게 라우팅되는가!

Chrome + Gemini API 흐름 분석

“Gemini가 내 탭 내용을 읽는다”는 말을 들었을 때, 막연하게 느껴지는 사람이 많다. 어떻게 읽는다는 건지, 어디로 보내는 건지, 내 데이터는 어디서 처리되는지. 사용자 입장에서는 그냥 사이드바에 물어보면 답이 온다는 사실만 보이고, 그 사이에 무슨 일이 일어나는지는 완전히 블랙박스다. 개발자라면 이 블랙박스가 불편하다. Chrome에 Gemini를 활용한 기능을 만들어보려고 했을 때, 처음 맞닥뜨리는 질문이 “Prompt API가 뭐고, … Read more