1인 1 AI 에이전트 시대가 만든 비용 폭증, 토큰 종량제와 CPU 부활이 가리키는 새 인프라 지형

지난주 한 게임사 임원이 받은 청구서 이야기를 들었다.

월 3천만원으로 계약한 AI 도구 비용이 다음 달에 1억 8천만원으로 청구됐다고 한다. 사용량 기반 종량제로 자동 전환된 것을 모르고 있다가, 청구서를 받고 나서야 부랴부랴 구조를 다시 짜고 있다는 후일담이었다. 이 이야기를 들으면서 머릿속에 한 장면이 그려졌다. 곧 이런 청구서가 한국 기업 절반 이상의 IT 부서에 도착하기 시작할 것이다. 그리고 그 시점이 생각보다 가깝다.

이번 주 쏟아진 기사들이 그 도착 시점을 정확히 알리는 신호들이다. NHN두레 백창열 대표가 기자 간담회에서 “지금까지는 매월 결제하는 정액제였지만, AI 에이전트를 출시하면서 사용량 기반 정량제로 변경할 것”이라고 밝혔다. SKT 정재헌 대표이사 사장은 올해 초 전 직원에게 ‘1인 1 AI 에이전트’ 특명을 내렸다. 개발 직군은 물론 일반 사무직까지 예외 없이 AI를 직접 다루고 실무에 적용할 줄 알아야 한다는 취지였다. 신한금융은 전 계열사 590개 본부에서 1000개 이상의 AI 에이전트를 개발하는 중이다. KOTRA가 6월 글로벌 탤런트 페어에서 330개사를 모았는데, 금융과 자동차 산업에서 AX 전환으로 직무 지향 급변이 일어나고 있다는 분석이 따라붙었다.

이 흐름의 다른 한 축에서는 인프라 산업이 그 비용 폭증을 받아낼 준비를 하고 있다. 인텔은 “학습 단계에서는 GPU가 수혜를 봤지만, 이제는 실제 AI가 일을 하는 추론과 AI 에이전트가 부각되면서 복잡한 의사결정과 시스템을 조율할 수 있는 CPU의 중요성이 높아지고 있다”는 메시지로 자존심 회복을 노리고 있다. AMD는 1분기 깜짝 실적을 발표하며 “추론과 AI 에이전트(비서)가 중앙처리장치와 AI 가속기 수요를 팽창하는 역할을 하고 있다”라고 강조했다. 수출입은행은 AI 기반 지능형 워크스페이스 구축에 들어갔고, 메일과 메일 초안 작성, 문서 요약, 일정 자동 정리, 자연어 기반 검색 등 반복 업무를 줄이는 기능이 중심이다.

이 신호들을 한 줄로 묶으면 답이 명확해진다. AI 에이전트가 본격 가동되면서 ‘1인 1 에이전트’ 시대가 본격 개막했고, 토큰 사용량이 폭증하며 요금제 구조가 정액제에서 종량제로 재편되고 있으며, 그 비용 폭증을 받아내기 위해 CPU·GPU 인프라부터 결제 프로토콜까지 모든 레이어가 동시에 변하고 있다. AI 추론 시대 본격화 글에서 이 변화의 시작점을 다뤘는데, 오늘은 그 변화가 한 단계 더 진전된 모습을 분석한다. 토큰 명세서를 매일 들여다보며 멀티에이전트 시스템을 운영하는 입장에서, 이 새 지형이 실제로 무엇을 의미하는지 풀어보겠다.

Contents

정액제에서 종량제로, AI 요금 구조가 본질적으로 바뀌는 이유

먼저 AI 요금제 변화의 본질부터 정확히 짚자. 표면적으로는 단순한 가격 정책 변경처럼 보일 수 있는데, 그 아래 깔린 구조 변화는 매우 깊다.

작년까지의 정액제 모델은 ‘챗봇 시대’의 산물이었다. 사용자가 하루에 몇십 번 대화 창을 열어 질문하고 답을 받는 패턴. 이 패턴 안에서는 사용량의 분산이 비교적 평탄해서 정액제가 작동했다. 한 사용자가 하루 100~200번 LLM을 호출하는 정도였고, 기업이 1000명에게 라이선스를 발급해도 전체 사용량이 예측 가능한 범위에 머물렀다.

에이전트 시대로 넘어오면 이 평탄한 곡선이 깨진다. 한 명의 사용자가 한 번 질문을 던지는 순간, 백엔드에서는 LLM이 수십 번 호출된다. 도구 호출 결과를 검토하고, 다음 단계를 계획하고, 결과를 검증하고, 다시 사용자에게 답변하기까지의 과정에서 토큰이 누적된다. 사용자는 한 번 질문했는데, 시스템 입장에서는 30번의 LLM 요청이 발생한다. 이게 단일 에이전트일 때의 이야기다. 멀티에이전트가 협업하는 구조로 가면 이 숫자가 다시 5~10배 뛴다.

NHN두레의 백창열 대표가 “사용량 기반 정량제로 변경할 것”이라고 분명히 밝힌 이유가 여기에 있다. AI 에이전트가 본격 가동되면 사용량의 변동성이 너무 커서 정액제로 손익을 맞출 수 없다. 그렇다고 정액제 가격을 사용량 최대치 기준으로 설정하면, 평소에는 너무 비싸서 고객이 떠난다. 결국 답은 종량제다. 쓰는 만큼 내는 구조로 가야 사업이 지속 가능하다.

문제는 이 구조 변화가 고객사에게 던지는 충격이다. 정액제에서는 예산 관리가 쉽다. 매달 정해진 금액을 내고 끝이다. 종량제로 가면 매달 청구서가 다르게 나온다. 어떤 달은 평소의 5배가 청구될 수 있고, 어떤 달은 평소의 10분의 1이 청구될 수 있다. 이 변동성을 IT 예산 관리 체계가 받아내지 못한다. 그래서 기사에서 짚은 대로 “AI 도구들이 필요한 국내 기업들은 성과를 검증하는 방식으로 요금제 변화에 대비하고 있다”는 새 동향이 생긴 것이다. 단순히 도구를 도입하는 것이 아니라, 그 도구가 만들어내는 비용과 가치를 함께 측정해야 하는 시대다.

SKT의 ‘1인 1 AI 에이전트’, 인사 정책이 인프라를 결정한다

같은 주에 SKT 정재헌 대표이사 사장의 발표가 함께 등장한 것이 흥미롭다. 올해 초 전 직원에게 ‘1인 1 AI 에이전트’ 특명을 내렸고, 개발 직군은 물론 일반 사무직까지 예외 없이 AI를 직접 다루고 실무에 적용할 줄 알아야 한다는 취지였다. 단순한 슬로건이 아니라, 인사 평가에 직접 연결된다는 뉘앙스도 함께 따라붙었다. “AI 못 다루면 승진·연봉 물 건너간다”는 헤드라인이 그 의지를 분명히 보여준다.

이 발표의 무게를 정확히 읽어야 한다. 그동안 한국 대기업의 AI 도입은 주로 IT 부서나 디지털 혁신팀 같은 특정 조직에 집중됐다. 그런데 ‘1인 1 AI 에이전트’ 특명은 그 범위를 전 직원으로 확장한다. 마케터, 영업, 재무, 인사 같은 사무직 전부가 자기 업무에 AI 에이전트를 붙여 일하라는 지시다. 이게 무엇을 의미하는가. 한 회사 안에서 동시에 도는 AI 에이전트의 수가 직원 수만큼 늘어난다는 뜻이다.

SKT가 약 5천명 규모의 회사라고 가정하면, 5천명이 각자 AI 에이전트를 붙여 일하는 환경이 만들어진다. 한 사람당 하루에 평균 10건의 작업을 에이전트에게 시킨다고 보수적으로 잡아도, 회사 전체에서 하루 5만 건의 에이전트 워크플로가 돈다. 각 워크플로가 평균 30번의 LLM 호출을 발생시킨다고 가정하면, 하루에 150만 번의 LLM 호출이 일어난다. 이 숫자가 한 회사에서 발생하는 토큰 비용의 새 기준선이 된다.

신한금융이 전 계열사 590개 본부에서 1000개 이상의 AI 에이전트를 개발하고 있다는 발표도 같은 패턴이다. 하나의 에이전트가 아니라 천 개의 에이전트가 동시에 도는 환경. 이 규모를 받아내려면 단순히 좋은 LLM 모델 하나를 사 와서는 안 된다. 비용 통제와 모니터링, 모델 라우팅, 캐싱 전략이 모두 들어가야 한다. 어떤 작업은 비싼 모델로, 어떤 작업은 저렴한 모델로, 어떤 작업은 캐시된 답으로. 이런 의사결정이 자동으로 이루어지는 인프라가 필요하다.

이 인프라 요구사항이 곧 바로 ‘판단 AI’의 영역으로 들어간다. GraphRAG와 Hybrid RAG 글에서 다룬 핵심 결론이 여기서 다시 의미를 갖는다. 모든 토큰을 LLM이 자유롭게 만들어 내는 구조에서는 비용을 통제할 수 없다. LLM이 답을 만드는 자리가 아니라 답을 호출하는 자리로 옮겨가야, 토큰 사용량이 예측 가능한 범위에 들어온다. 1000개의 에이전트가 도는 신한금융 같은 환경에서는 이 발상의 전환이 단순한 기술 선택이 아니라 사업 지속 가능성의 문제가 된다.

인텔의 귀환과 AMD의 깜짝 실적, 추론 인프라가 다시 짜이고 있다

비용 폭증의 다른 한 면이 인프라 산업의 재편이다. 이번 주 인텔과 AMD가 동시에 같은 메시지를 던진 것이 의미심장하다.

인텔의 메시지는 명확하다. 학습 단계에서는 계산 속도가 중요해서 GPU가 수혜를 봤지만, 이제는 실제 AI가 일을 하는 추론과 AI 에이전트가 부각되면서 복잡한 의사결정과 시스템을 조율할 수 있는 CPU의 중요성이 높아지고 있다는 것. 이 한 줄이 인텔이 지난 2년간 잃었던 시장에서의 자기 자리를 다시 정의하는 발언이다. 학습 시장은 엔비디아에 내줬지만, 추론과 에이전트 시대가 오면 CPU의 역할이 다시 중심에 올 수 있다는 신호다.

AMD도 같은 방향에서 신호를 보냈다. 1분기 깜짝 실적을 발표하면서 “추론과 AI 에이전트(비서)가 중앙처리장치(CPU)와 AI 가속기 수요를 팽창하는 역할을 하고 있다”라고 강조했다. 서버 부문 성장세는 더욱 가속화할 것이라는 전망까지 함께 따라붙었다. AMD는 CPU와 GPU를 모두 가진 회사라서 이 두 시장의 동시 성장에서 가장 직접적인 수혜를 본다.

왜 추론과 에이전트 시대에 CPU가 다시 중요해지는가. 추론은 단순히 GPU 비율을 줄여주는 작업이 아니다. 에이전트가 정교해질수록 외부 시스템 호출, 데이터베이스 조회, 워크플로 분기, 도구 결과 처리 같은 CPU 집약적 작업이 함께 늘어난다. LLM이 답을 만드는 자리에서 LLM이 도구를 호출하는 자리로 역할이 옮겨가면서, 그 도구를 실제로 실행하는 CPU의 부담이 늘어난다. 한 번의 사용자 요청에 LLM 30번이 호출된다는 건, 그 30번 사이사이에 도구 호출과 결과 처리가 들어간다는 뜻이다. 그리고 그 작업은 대부분 CPU가 처리한다.

또 한 가지 중요한 변화가 있다. 데이터센터의 메모리 대역폭과 용량이 차지하는 비중이 빠르게 올라간다는 점이다. KV 캐시 관리, 벡터 DB 검색, 멀티에이전트 공유 메모리, 장기 메모리 아카이브 같은 작업이 모두 메모리를 다룬다. SK하이닉스가 ‘AI 에이전트의 게임체인저’로 부상한다는 분석, 메모리 가격 인상이 분기 실적의 변수로 작용한다는 퀄컴의 발표 같은 신호들이 모두 같은 방향을 가리킨다. 추론 시대의 인프라는 CPU와 GPU와 메모리가 한 팀으로 일하는 구조다. 어느 하나가 부족하면 전체 시스템이 멈춘다.

기업 IT 부서 입장에서 이 변화가 의미하는 바는 분명하다. 작년까지 “GPU만 사면 된다”고 생각했던 인프라 의사결정이 더 이상 통하지 않는다. CPU와 GPU와 메모리, 그리고 그 위에서 도는 추론 스택까지 함께 설계해야 한다. 추론 비용 = GPU 시간이라는 단순한 등식이 깨졌다. 이제는 추론 비용 = (CPU + GPU + 메모리) × 호출 횟수 × 모델 가격이라는 다변수 함수가 됐다. 이 함수의 모든 변수를 통제하는 능력이 새로운 IT 경쟁력이다.

구글클라우드의 스테이블코인, AI 에이전트가 직접 결제한다

이번 주 가장 미래 지향적인 발표가 구글클라우드에서 나왔다. 솔라나와 AI 에이전트용 스테이블코인 결제를 출시한다는 내용이다. 이에 따라 AI 에이전트들이 이제 솔라나 기반 스테이블코인을 이용해 구글 클라우드 서비스와 수십 개의 다른 API 비용을 자율적으로 결제할 수 있게 됐다. 사용자들은 솔라나 지갑을 구글의 제미나이와 오픈클로 같은 공개 환경에서 활용할 수 있다.

이 발표가 단순한 결제 기능 추가 이상의 의미를 갖는다. 지금까지의 클라우드 비즈니스는 사람이 결제하는 것을 전제로 만들어졌다. 회사 카드, 월 청구, 신용 한도 같은 모든 결제 인프라가 사람을 사용자로 가정한다. 그런데 AI 에이전트가 자율적으로 행동하기 시작하면서 이 전제가 깨진다. 에이전트가 새로운 API를 발견하고, 필요할 때 그 API를 호출하고, 호출 비용을 자동으로 결제하는 흐름이 만들어진다. 사람이 중간에 결제 승인을 할 자리가 없다.

스테이블코인 결제는 이 자율 결제를 가능하게 하는 인프라다. 에이전트에게 일정 금액의 스테이블코인 지갑을 할당하면, 에이전트는 그 지갑 안에서 자기 판단에 따라 API 비용을 지불할 수 있다. 사람의 개입 없이도, 그러나 통제 가능한 한도 안에서. 이 구조가 자리잡으면 AI 에이전트들이 서로 직접 거래하는 시장이 만들어진다. 한 에이전트가 다른 에이전트의 데이터를 사고, 다른 에이전트의 분석 능력을 빌리고, 또 다른 에이전트의 실행 능력을 호출하는 자율적 경제가 형성된다.

이 그림이 비현실적으로 들릴 수 있는데, 미국 공공부문에서 이미 그 방향으로 움직이기 시작했다. “결국 AI는 단순한 클라우드 서비스가 아니라 전체 애플리케이션 환경을 가로지르는 ‘아키텍처 계층’으로 변하고 있다. 미국 공공부문의 움직임은 정부가 민간보다 AI 도입에 뒤처진다는 통념과는 다른 장면을 보여준다.” 이 한 줄이 핵심이다. AI가 하나의 도구나 서비스가 아니라 모든 시스템을 가로지르는 새 아키텍처 계층으로 자리잡고 있다는 것. 그 계층 위에서 에이전트들이 자율적으로 자원과 비용을 주고받는 구조가 만들어지고 있다는 것.

이 흐름은 공공 AX와 표준 AI 에이전트 글에서 다뤘던 한국 정부의 ‘AI-원’ 플랫폼이나 인사혁신처의 표준 AI 에이전트 발주와 정확히 같은 좌표를 향한다. 한국 공공도 AI를 클라우드 서비스가 아니라 운영체제 계층으로 가져가는 그림을 그리기 시작했고, 미국은 그 위에 자율 결제 인프라까지 얹기 시작했다. 한국이 이 다음 단계를 어떻게 따라잡을지가 향후 1~2년의 관전 포인트다.

토큰 종량제 시대의 다섯 가지 실무 함의

여기까지 풀어 본 변화를 실무 의사결정자 관점에서 다섯 가지로 정리하고 마무리하고 싶다.

첫째, 토큰 비용을 운영 비용으로 다시 정의해야 한다. 모델 단가만 보고 예산을 짜는 시대는 끝났다. 한 번의 사용자 요청에 따라붙는 LLM 호출 횟수, 컨텍스트 누적량, 도구 호출 빈도까지 모두 측정하는 모니터링 체계가 필요하다. 매월 청구서가 갑자기 5배로 뛰는 일이 일상이 되기 전에, 토큰 사용량 대시보드부터 만들어야 한다.

둘째, 사용자 교육이 인프라만큼 중요하다. SKT의 ‘1인 1 AI 에이전트’ 특명이 그 신호다. AI 에이전트를 잘 다루는 직원과 못 다루는 직원의 생산성 격차가 5배에서 10배까지 벌어지기 시작했다. 인사 평가와 승진에 이 능력이 반영되는 회사들이 늘어나고 있다. 도구를 사는 것보다 도구를 쓸 줄 아는 직원을 만드는 것이 더 어렵고 더 중요하다.

셋째, 인프라 의사결정이 다변수 함수가 됐다. CPU, GPU, 메모리, 모델, 추론 스택, 캐싱 전략, 모델 라우팅까지 모든 변수가 비용에 영향을 미친다. “GPU만 사면 된다”는 단순한 결정에서 벗어나, 자기 워크로드에 맞는 통합 아키텍처를 설계해야 한다. 인텔과 AMD가 같은 메시지를 던지는 이유가 여기에 있다.

넷째, 종량제 시대에 LLM의 역할을 다시 정의해야 한다. LLM이 모든 답을 만들어내는 구조에서는 토큰이 통제 불가능하게 폭증한다. LLM이 구조화된 지식과 도구를 호출하는 자리로 역할이 바뀌어야, 토큰 사용이 예측 가능해진다. GraphRAG, Hybrid RAG, 도구 호출 표준화 같은 키워드들이 단순 기술 선택이 아니라 비용 통제 전략의 일부가 됐다.

다섯째, 자율 결제와 에이전트 경제를 미리 준비해야 한다. 구글클라우드의 스테이블코인 결제는 시작일 뿐이다. AI 에이전트들이 자기 자원과 비용을 자율적으로 관리하는 시대가 가까워졌다. 이 시대가 본격화되면 회계 시스템, IT 거버넌스, 보안 통제, 감사 체계 모두가 새로 짜여야 한다. “사람이 결제하는 것”을 전제로 만들어진 모든 시스템을 다시 검토할 시점이다.

청구서가 도착하기 전에 답을 준비해야 한다

이번 주 기사를 한 줄로 묶으면 이렇다. AI 에이전트가 본격 가동되면서 ‘1인 1 에이전트’ 시대가 열렸고, 토큰 사용량이 폭증하며 요금제 구조가 종량제로 재편되고 있고, 그 비용 폭증을 받아내기 위해 CPU와 GPU 인프라부터 자율 결제 프로토콜까지 모든 레이어가 동시에 바뀌고 있다.

이 변화의 속도는 우리가 체감하는 것보다 훨씬 빠르다. SKT의 5천명, 신한금융의 1000개 에이전트, NHN의 종량제 전환, 인텔과 AMD의 인프라 재편, 구글의 자율 결제까지. 어느 하나가 미래의 그림이 아니라 모두 지금 이 순간에 일어나고 있는 변화다. 한국 기업의 IT 부서가 이 변화를 따라가지 못하면, 청구서가 도착하는 순간 비용 통제 능력을 잃는다. 그리고 그 비용 통제 능력의 상실은 곧 AI 에이전트 도입 자체의 후퇴로 이어진다.

엔지니어와 의사결정자 입장에서 마지막으로 한 가지를 덧붙이고 싶다. 이 변화는 막을 수 있는 변화가 아니다. AI 에이전트가 만들어내는 생산성 향상이 너무 명확해서, 비용 폭증을 감수하더라도 도입할 수밖에 없다. 그래서 진짜 질문은 “도입할 것인가 말 것인가”가 아니다. “어떻게 도입하면서 비용을 통제할 것인가”다. 토큰 사용량을 매일 측정하고, 인프라를 다변수로 설계하고, LLM의 역할을 재정의하고, 사용자 교육에 투자하고, 자율 결제 시대를 미리 준비하는 것. 이 다섯 가지를 동시에 해내는 조직만이 다음 사이클의 주인공이 된다. 청구서는 곧 도착한다. 그 청구서를 받아 들었을 때 당황하지 않을 준비가 되어 있어야 한다.