구글 터보퀀트(TurboQuant), VLLM 서빙 엔지니어가 직접 뜯어본 KV 캐시 혁명의 실체

지난주 내 뉴스 피드가 갑자기 난리가 났다. 삼성전자, SK하이닉스 주가 폭락. 마이크론 7% 급락. 반도체주 일제히 흔들. 원인은 단 하나, 구글이 논문 하나 발표한 것 때문이었다. 터보퀀트(TurboQuant). LLM 메모리를 6배 줄이고 속도는 8배 올린다는 기술.

솔직히 처음 이 뉴스를 봤을 때 반응이 두 갈래로 갈렸다. 한쪽에서는 “구글의 딥시크 모먼트다, 반도체 시대 끝났다”는 패닉이 나왔고, 다른 한쪽에서는 “그냥 논문인데 왜 저러냐”는 시큰둥한 반응이 나왔다. 나는 vLLM으로 실제 서빙 환경을 운영해본 사람으로서 이 두 반응이 모두 틀렸다고 생각한다. 실제로 뭐가 어떻게 돌아가는지 모르면 이게 왜 중요한지, 왜 시장이 오해했는지 제대로 설명이 안 된다.

Contents

KV 캐시가 뭔지 모르면 터보퀀트도 모른다

터보퀀트를 이해하려면 KV 캐시(Key-Value Cache)가 뭔지부터 잡고 가야 한다. 이걸 모르면 “메모리 6배 줄인다”는 말이 왜 중요한지 감이 안 온다.

LLM이 텍스트를 생성할 때는 토큰을 하나씩 순서대로 만들어낸다. 그런데 각 토큰을 생성할 때마다 이전에 등장한 모든 토큰들의 정보를 참조해야 한다. 이걸 매번 처음부터 계산하면 엄청난 연산 낭비가 발생한다. 그래서 이미 계산한 Key-Value 값들을 따로 저장해두고 재사용하는 게 KV 캐시다. 쉽게 말하면 LLM의 단기 기억 창고다.

문제는 대화가 길어질수록 이 창고 크기가 기하급수적으로 커진다는 거다. 컨텍스트 길이가 2배 늘면 KV 캐시도 2배 늘어난다. 요즘 128K, 심지어 1M 컨텍스트를 지원하는 모델들이 나오기 시작하면서 KV 캐시 메모리 문제가 서빙 환경에서 진짜 병목으로 작동하기 시작했다.

vLLM으로 실제 서빙을 해보면 이 문제가 얼마나 현실적인지 바로 체감된다. 배치 처리를 늘리고 싶은데 KV 캐시가 GPU 메모리를 다 잡아먹어서 배치 사이즈를 키울 수가 없다. 컨텍스트 길이가 긴 요청이 들어오면 다른 요청들이 큐에서 밀린다. H100 한 장에 올릴 수 있는 동시 요청 수가 생각보다 훨씬 적다. 이 경험을 해본 사람이라면 터보퀀트가 왜 관심을 끄는지 바로 이해가 된다.

터보퀀트가 실제로 하는 일

구글 리서치와 딥마인드, 뉴욕대, KAIST 한인수 교수 공동연구팀이 만든 터보퀀트의 핵심은 이 KV 캐시를 더 작게 압축하는 것이다. 기존에도 양자화(Quantization) 기술로 KV 캐시를 압축하려는 시도가 있었다. 근데 기존 방식에는 치명적인 문제가 있었다. 양자화 상수(quantization constant)라는 추가 데이터를 함께 저장해야 해서, 압축한 만큼 이 메타데이터가 다시 공간을 차지하는 딜레마가 있었다. 압축해도 별로 안 줄어드는 현상이 생겼다.

터보퀀트는 여기에 두 가지 기술을 결합해서 이 딜레마를 풀었다.

첫 번째가 폴라퀀트(PolarQuant)다. 기존에는 벡터를 직교좌표(X, Y, Z 방식)로 저장했다. 폴라퀀트는 이걸 극좌표 방식으로 바꾼다. 크기(magnitude)와 방향(angle)으로 표현하는 것이다. 이렇게 하면 데이터 구조가 단순해져서 추가 메타데이터 없이도 효율적인 압축이 가능해진다.

두 번째가 QJL(Quantized Johnson-Lindenstrauss)이다. 압축 과정에서 생기는 미세한 오차를 1비트 정보만으로 보정하는 기법이다. 손실을 최소화하면서 압축 효율을 최대로 끌어올리는 역할을 한다.

이 두 가지를 결합한 결과가 3비트 KV 캐시 압축이다. 기존 32비트 대비 메모리 사용량이 최대 6분의 1로 줄고, H100 GPU에서 연산 속도가 최대 8배까지 올라간다는 게 구글의 주장이다. 그리고 별도의 파인튜닝 없이 기존 모델에 바로 적용 가능하다. Gemma, Mistral 등 오픈소스 모델에서 테스트했고, LongBench, Needle-in-a-Haystack 등 롱컨텍스트 벤치마크에서 원본 모델과 동일한 정확도를 유지했다는 결과를 냈다.

시장이 오해한 것과 실제로 일어날 일

반도체 주가가 폭락한 이유는 단순했다. “메모리 6배 줄이면 메모리 덜 산다”는 논리다. 직관적으로는 맞는 것 같다. 근데 실제로는 이게 완전히 틀린 방향의 해석이다.

내가 서빙 환경에서 경험한 현실은 이렇다. 효율이 좋아지면 그 여유 공간에 더 많은 걸 올린다. KV 캐시를 6분의 1로 줄일 수 있게 되면 기업들은 “이제 메모리 덜 사야지”가 아니라 “이제 같은 메모리로 6배 많은 요청을 처리할 수 있다”고 생각한다. 혹은 “같은 메모리로 더 긴 컨텍스트를 쓸 수 있다”고 생각한다.

KAIST 정명수 파네시아 대표가 이걸 정확하게 짚었다. 에이전트가 루프로 돌아가는 구조에서는 KV 캐시 요구량이 수십 배, 수백 배 늘어난다. AI 에이전트 시대가 본격화되면 KV 캐시 수요 자체가 폭증하는데, 터보퀀트는 이 폭발적 수요를 현재 하드웨어로 버티기 위한 소프트웨어적 해법이지, 수요를 꺾는 기술이 아니라는 거다.

이걸 경제학에서는 제본스의 역설(Jevons Paradox)이라고 부른다. 효율이 높아질수록 해당 자원의 소비가 오히려 늘어나는 현상이다. 증기기관 효율이 좋아지니까 석탄 소비가 줄었냐, 반대로 더 늘었다. 인터넷 속도가 빨라지니까 데이터 소비가 줄었냐, 더 폭발적으로 늘었다. AI 추론 비용이 낮아지면 AI 서비스 진입 장벽이 낮아지고, 더 많은 기업이 더 많이 쓰게 된다. 메모리 수요 감소가 아니라 시장 확장이다.

물론 단기적으로는 다르다. 투자 심리가 흔들린 건 사실이고, ICLR 2026 정식 발표 시점인 4월을 앞두고 변동성이 클 수 있다. 근데 이걸 구조적 수요 붕괴로 읽으면 방향을 잘못 잡는 거다.

vLLM에 터보퀀트가 들어오면 어떻게 달라지나

지금 이 시점에서 현실적으로 중요한 질문은 이거다. 터보퀀트가 실제 서빙 프레임워크에 언제 통합되느냐.

현재 상태를 정확하게 말하면, 아직 논문 단계다. 오픈소스 공식 코드는 공개되지 않았고, Triton이나 llama.cpp 같은 커뮤니티 구현체들이 나오고 있는 정도다. vLLM, Ollama 같은 주요 서빙 프레임워크에는 아직 통합되지 않았다. 구글이 자사 Gemini 서비스에 먼저 적용하고, 이후 점진적으로 확산될 가능성이 높다.

vLLM을 직접 써본 사람 입장에서 생각해보면, 이게 통합되는 게 기술적으로 어렵지는 않다. vLLM은 이미 KV 캐시 관련 최적화를 PagedAttention 방식으로 처리하고 있고, 구조상 양자화 옵션을 플러그인 형태로 붙이는 게 가능하다. 실제로 vLLM은 FP8, INT4 같은 양자화 옵션을 이미 지원한다. 터보퀀트의 폴라퀀트와 QJL 방식이 여기 추가되는 건 시간문제다.

통합이 되면 실제 서빙 환경에서 차이가 얼마나 날까. 배치 처리 효율이 대폭 올라간다. 지금은 KV 캐시 메모리 한계 때문에 GPU 한 장에서 처리할 수 있는 동시 요청 수가 제한되는데, 이게 풀리면 같은 하드웨어로 더 많은 트래픽을 소화할 수 있다. 긴 컨텍스트 요청이 들어와도 다른 요청들이 큐에서 밀리는 현상이 줄어든다. 온프레미스로 LLM 서빙을 운영하는 기업 입장에서는 GPU 투자 대비 처리량이 실질적으로 늘어나는 셈이다.

양자화의 트레이드오프, 현장 전문가들이 말하는 한계

그렇다고 터보퀀트가 마법이냐 하면 그것도 아니다. ZDNet 기사에서 하이퍼엑셀 이진원 CTO가 짚은 부분이 핵심이다. 3비트로 저장하더라도 꺼내서 연산할 때는 4비트로 변환해야 한다. 현재 하드웨어는 3비트 연산기가 없기 때문이다. 압축은 됐지만 꺼내 쓸 때 변환 오버헤드가 생긴다.

양자화 기술의 본질적 한계도 있다. 소수점 이하 세밀한 데이터를 덜어내는 손실 압축이라는 점이다. 구글은 정확도 손실 없이 압축한다고 발표했지만, 현장에서는 더 냉정하게 본다. 극단적인 압축에서 아주 미세한 정확도 저하가 발생할 수 있고, 이게 누적되거나 특정 작업에서 더 크게 나타날 수 있다. 일반적인 텍스트 생성이나 요약에서는 차이가 안 느껴지겠지만, 수학 추론이나 코딩처럼 정밀도가 중요한 작업에서는 변수가 될 수 있다.

그리고 이건 추론(inference) 최적화 기술이지, 학습(training) 과정과는 무관하다. 시장이 HBM 수요 붕괴를 걱정했는데, HBM은 학습에 핵심이고 학습 메모리 수요는 터보퀀트의 영향을 받지 않는다. 마이크론, 삼성, SK하이닉스 주가가 과도하게 빠진 게 이 이유다. 추론용 D램 일부에 영향이 있을 수 있지만, HBM 학습 수요는 구조적으로 건드리지 못한다.

AI 경쟁의 축이 바뀌고 있다

터보퀀트가 상징하는 더 큰 흐름이 있다. AI 경쟁의 무게중심이 “더 큰 모델”에서 “더 효율적인 모델”로 이동하고 있다는 거다.

딥시크가 학습 효율 혁신으로 충격을 줬다면, 터보퀀트는 추론 효율 혁신으로 같은 방향을 건드린다. 클라우드플레어 CEO 매튜 프린스가 이걸 “구글의 딥시크 모먼트”라고 표현한 건 과장이 아니다. 물론 딥시크는 실제 서비스로 바로 충격을 줬고, 터보퀀트는 아직 논문이라는 차이가 있다. 하지만 방향성이 같다.

이게 현업 엔지니어 입장에서는 무엇을 의미하냐면, 하드웨어 스펙 경쟁만 쫓아가는 게 더 이상 AI 인프라 최적화의 전부가 아니라는 거다. vLLM 같은 서빙 프레임워크가 새로운 압축 알고리즘을 얼마나 빠르게 흡수하느냐, 각 기업이 이런 소프트웨어 최적화 기술을 운영 환경에 얼마나 잘 통합하느냐가 실질적인 AI 서비스 비용 경쟁력을 가른다.

4월 ICLR 2026에서 터보퀀트가 정식으로 발표되고 나면 구현체들이 더 빠르게 나올 것이다. vLLM 통합도 그리 오래 걸리지 않을 거라고 본다. 그때를 대비해서 KV 캐시 양자화가 실제 서빙 파이프라인에서 어떻게 작동하는지 미리 개념을 잡아두는 게 훨씬 낫다. 기술이 나온 다음에 공부하면 항상 반 박자 늦는다.

마무리: 터보퀀트가 우리에게 실제로 의미하는 것

반도체 시장이 패닉했지만, 기술 자체를 뜯어보면 이야기가 달라진다.

터보퀀트는 LLM 추론 서빙 환경의 가장 현실적인 병목인 KV 캐시 문제를 소프트웨어 수준에서 처음으로 실질적으로 뚫었다. 폴라퀀트로 데이터 구조를 재설계하고 QJL로 오차를 보정해서 추가 파인튜닝 없이 3비트 압축을 달성했다는 건 학술적으로도, 실용적으로도 의미가 크다.

시장의 “메모리 수요 폭락” 해석은 과했다. 에이전틱 AI가 본격화될수록 KV 캐시 수요는 줄어드는 게 아니라 폭증한다. 터보퀀트는 이 폭증을 현재 하드웨어로 감당하기 위한 산소호흡기에 가깝다. 효율화 기술이 시장을 키운다는 제본스의 역설이 여기서도 작동할 가능성이 높다.

실제 서빙 엔지니어 관점에서 지금 당장 중요한 건, 4월 ICLR 발표 이후 오픈소스 구현체와 vLLM 통합 동향을 챙기는 것이다. 이 기술이 서빙 프레임워크에 들어오는 순간, 같은 하드웨어로 처리할 수 있는 요청 수와 컨텍스트 길이가 달라진다. AI 서비스 운영 비용 구조가 실질적으로 바뀌는 시점이 생각보다 빠르게 올 수 있다.

구글 터보퀀트(TurboQuant), vLLM 서빙 엔지니어가 직접 뜯어본 KV 캐시 혁명의 실체