범용 AI에서 실행형 AI로, 토큰 비용 폭증이 만든 2026년 엔터프라이즈 AI 새 지형도

며칠 전 한 고객사에서 토큰 청구서를 받아 든 부서장이 “이거 진짜 맞느냐”라고 두 번 물어왔다.

원래 챗봇 PoC 한 달 비용으로 300만 원 정도 잡아두었던 항목이, 정식 운영에 들어간 다음 달 청구서에서 1,800만 원으로 찍혀 나왔다고 한다. 무엇이 잘못된 게 아니었다. 챗봇이 단순 질의응답에서 다단계 추론과 도구 호출이 들어간 ‘에이전트’로 진화하면서 토큰 사용량이 6배 가까이 늘어난 것뿐이었다. 부서장은 “이대로면 1년에 2억이 넘는데, 이게 정상이냐”라고 다시 물었다. 정상이다, 라고 답하면서도 머쓱했다. 정상인데, 정상이라고 받아들이기엔 액수가 너무 컸다.

이번 주 쏟아진 AI 뉴스들이 정확히 이 청구서 한 장의 무게를 설명하고 있었다. 가성비를 강조해도 왕좌는 그대로라며 딥시크가 AI 비용 기준 붕괴를 이야기했고, MS 나델라 CEO는 “모든 기업이 에이전트형 컴퓨팅 시대에 성과를 극대화할 수 있도록 클라우드와 AI 인프라·솔루션 제공에 주력하고 있다”고 선언했다. 포스코DX는 ‘A.WORKS’라는 이름으로 정형화된 반복 업무에 RPA와 AI를 결합한 Agentic Automation 플랫폼을 들고나왔고, HP는 온디바이스 AI와 Visor라는 화면 상단 상시 표시 인터페이스로 ‘일의 미래’ 청사진을 그렸다. 넷앱은 인텔, 테라텍, SK네트웍스서비스와 손잡고 NetApp AIPod Mini라는 온프레미스 추론 박스를 내놓았다. 퀄컴 CEO는 “AI 에이전트(비서)의 등장이 퀄컴의 플랫폼 로드맵을 재편한다”라고 말했다.

흩어진 뉴스 같지만 한 줄로 꿰면 답이 명확하다. 범용 AI 시대가 끝나가고 실행형 AI 시대가 본격화되면서, 토큰 비용과 운영 비용이 폭증하고, 그 비용을 어떻게 분산할 것인지가 새로운 경쟁력의 핵심이 됐다는 것이다. 클라우드 일변도였던 작년의 그림이 클라우드 + 온프레미스 + 온디바이스 + RPA 결합이라는 이종(異種) 아키텍처로 빠르게 넘어가고 있다. LangGraph 기반 멀티에이전트를 매일 운영하면서 토큰 명세서를 들여다보는 입장에서, 이 변화가 의미하는 것을 풀어보려 한다.

Contents

딥시크의 가성비론, 그러나 진짜 문제는 다른 곳에 있다

먼저 짚어야 할 것이 딥시크 기사다. 가성비를 강조해도 왕좌는 그대로라는 헤드라인 아래, AI 비용 기준 붕괴에 대한 분석이 따라붙었다. 다단계 추론, 장문 맥락 처리, 코드 호출, 자동화 워크플로우가 반복되는 과정에서 토큰 사용량이 빠르게 누적된다는 진단이었다. 특히 RAG 기반 검색, 지능형 고객센터, 문서 분석처럼 캐시 적중률이 높은 서비스일수록 상대적으로 절감 효과가 크다는 부분이 인상적이었다.

딥시크 같은 저비용 모델이 시장에 던지는 진짜 메시지는 단순히 “더 싼 모델이 나왔다”가 아니다. AI 운영 비용을 측정하고 비교하는 기준선 자체가 흔들리고 있다는 점이다. 작년까지 기업들은 GPT-4 또는 Claude 기준 토큰 단가로 예산을 짰다. 그런데 딥시크나 경량 오픈소스 모델 단가가 그 1/10 수준으로 떨어지면서, “이 모델로 충분한 작업”과 “프리미엄 모델이 꼭 필요한 작업”을 구분해야 하는 시대가 됐다. 모델 라우팅이라는 개념이 그래서 부상했다. 한 시스템 안에서 작업 난이도에 따라 어떤 토큰은 비싼 모델로, 어떤 토큰은 싼 모델로 보내는 의사결정이 필요해졌다.

문제는 에이전트 시대로 들어가면 이 계산이 더 복잡해진다는 데 있다. 단일 LLM 호출 한 번이라면 모델 단가가 비용 전부지만, 에이전트는 한 번의 사용자 요청을 처리하면서 LLM을 수십 번 호출한다. 도구 호출 결과를 검토하고, 다음 단계를 계획하고, 결과를 검증하고, 다시 사용자에게 답변하기까지의 과정에서 토큰이 누적된다. 이 누적의 규모를 직접 보고 싶다면 LangGraph로 단일 Supervisor 에이전트와 서브 에이전트들을 한 번 굴려보면 된다. 같은 질문에 답하는 데 단일 LLM 호출보다 5~10배의 토큰이 들어가는 게 일반적이다. 이 부분의 구체적인 토큰 절감 패턴은 LangGraph 1.0 Supervisor 멀티에이전트 설계 GPT-5 글에서 Handoff와 Forward Message 패턴을 중심으로 따로 정리한 적이 있다.

딥시크 기사가 정작 짚지 못한 진짜 함정이 여기에 있다. 모델 단가만 봐서는 절감 효과가 커 보여도, 에이전트 시스템 전체의 워크플로 설계가 잘못되어 있으면 단가 절감분이 호출 횟수 폭증에 묻힌다. 즉 모델 가격 경쟁이 의미를 가지려면, 그 위에서 토큰 누적을 통제하는 아키텍처가 함께 들어와야 한다. 캐시 전략, 컨텍스트 압축, 모델 라우팅, 도구 호출 최적화 같은 키워드들이 단순한 운영 노하우가 아니라 사업 수익성을 결정하는 변수가 된 시대다.

나델라가 말한 ‘에이전트형 컴퓨팅 시대’, SaaS 시대의 끝

같은 주에 마이크로소프트가 예상치를 상회하는 분기 매출을 발표했다. 그런데 주가는 오히려 빠졌다. 투자자들이 본 건 단기 실적이 아니라, 나델라 CEO가 던진 한 문장이었다. “우리는 모든 기업이 에이전트형 컴퓨팅 시대에 성과를 극대화할 수 있도록 클라우드와 AI 인프라·솔루션 제공에 주력하고 있다.”

‘에이전트형 컴퓨팅 시대’라는 표현을 가볍게 보면 안 된다. 이건 마이크로소프트가 자기 정체성을 재정의하는 발언이다. 작년까지 마이크로소프트는 ‘AI 시대의 클라우드 회사’였다. 이번 발언으로 ‘AI 에이전트가 사용자가 되는 컴퓨팅 시대의 인프라 회사’로 한 걸음 더 옮겨갔다. 같은 클라우드 사업이지만 그 위에서 도는 워크로드의 본질이 다르다는 선언이다.

이 변화가 SaaS 산업에 던지는 충격은 이미 다른 기사에서 나왔다. “범용 AI 넘어 실행형 AI로”라는 헤드라인 아래, 마이크로소프트 팀즈(Teams) 같은 업무 환경에서 활용할 수 있으며 에이전트가 내린 판단의 근거를 함께 제공하도록 설계됐다는 SAS의 산업별 맞춤형 에이전트 사례가 소개됐다. 마리넬라 프로피 에이전틱 AI 글로벌 시장 전략 리드는 식품점 재고 관리 시나리오를 직접 들어 설명했다. 같은 맥락에서 펨로씨가 점찍은 제논의 사례에서 “고객사가 업무 환경에 맞춰 AI 어시스턴트나 에이전트를 직접 커스터마이징할 수 있다는 점이 주요 경쟁력으로 꼽힌다”는 분석이 등장했고, 매출 구조를 보면 구축형 프로젝트의 비중이 크다는 부연이 따라붙었다.

이 두 사례에서 공통적으로 보이는 키워드가 있다. ‘커스터마이징’과 ‘구축형’이다. 작년까지 SaaS의 황금률은 표준화된 제품을 다수의 고객에게 동일하게 제공하는 것이었다. 그런데 에이전트 시대로 넘어오면서 고객사가 자기 업무 맥락에 맞게 에이전트를 커스터마이징하길 원하게 됐고, 이는 곧 구축형 프로젝트 매출 비중이 다시 올라가는 흐름으로 이어진다. 표준 SaaS의 시대가 끝나고, 도메인 맞춤 에이전트 구축의 시대가 시작된다. 그래서 우도 스클라보 SAS 부사장이 “AI는 마법 아니야”라고 말하며 기업용 AI 성패는 산업별 맞춤화에 달려 있다고 지적한 것이다. 범용 모델을 그대로 가져다 쓰는 도입은 실패한다는 경고다.

A.WORKS와 Selto Factory, 한국 제조업의 실행형 AI 답안

같은 흐름이 한국 제조업에서도 또렷하게 그려지고 있다. 포스코DX는 “AX는 ‘하나의 정답’ 아니다”라며 과제별 맞춤형 AI 적용 체계를 제시했다. 지능형 RPA 기반의 에이전틱 오토메이션이 필요하다고 본 것이다. 첫 번째 Agentic Automation 플랫폼인 ‘A.WORKS’는 정형화된 반복 업무를 대상으로 RPA와 AI를 결합한 업무 프로세스를 다룬다. 두 번째 프로세스형 과제는 AI, 로직, 사람을 결합하는 방식으로 풀어간다는 설계다.

인포플라는 감지부터 실행까지 3단계 지능화 아키텍처를 셀토 팩토리(Selto Factory)에 적용했다. 기사에서 가장 인상적이었던 부분은 한계 진단이었다. “기존의 RPA 시스템은 UI 변경에 매우 취약하고, 스크립트 기반 구조로 인해 유지보수 부담이 크다는 한계가 존재했다. 인포플라는 화면을 직접 인식하는 비전 AI 기술로 이러한 맹점을 해결한다.” 이 한 문장이 한국 제조업이 RPA에서 에이전틱 자동화로 넘어가는 이유를 가장 정확히 설명한다.

RPA의 본질적 약점은 화면이 조금만 바뀌어도 봇이 멈춘다는 것이다. 매번 UI 변경에 맞춰 스크립트를 다시 짜면 유지보수 비용이 도입 비용을 초과한다. 비전 AI가 화면을 직접 의미 단위로 이해하면 이 비용 구조 자체가 바뀐다. 화면 레이아웃이 바뀌어도 봇이 “버튼이 어디 있는지 의미적으로” 찾아낸다. 한국 제조업이 이미 RPA에 충분히 투자해 둔 상태라는 점이 오히려 장점이다. 기존 자산을 폐기하지 않고 그 위에 비전 AI와 LLM을 얹어 에이전틱 자동화로 진화하는 경로가 가능해지기 때문이다.

이 흐름은 그리드원 GO;DO 플랫폼이 그렸던 ‘한국형 자율형 엔터프라이즈’ 청사진과 정확히 같은 결을 가진다. 분석-지식-실행-검증을 하나의 선순환으로 묶고, 그 위에서 RPA를 에이전트의 실행 도구로 흡수하는 구조 말이다. 이 모델의 의미와 한계는 그리드원 GO;DO로 보는 한국형 에이전틱 자동화 글에서 따로 분석한 적 있는데, 포스코DX와 인포플라 사례까지 함께 놓고 보면 이건 더 이상 한 회사의 비전이 아니라 한국 제조업 전반의 표준 아키텍처가 되어 가고 있다는 게 분명해진다.

씨에스리가 빅재미와 결합해 RPA 기술 위에 데이터 분석 플랫폼을 올린 사례도 같은 맥락이다. 분석된 데이터를 바탕으로 리포트 자동 생성, 데이터 전송, 알림 발송 등 후속 업무까지 원스톱으로 처리한다는 설명이었다. 이게 바로 실행형 AI다. 분석에서 끝나는 게 아니라 그 분석 결과로 다음 행동을 자동으로 일으키는 구조. 챗봇 시대와 에이전트 시대를 가르는 결정적 차이가 이 한 줄에 있다.

HP, 넷앱, 퀄컴이 그리는 ‘비용 분산 아키텍처’

토큰 비용 폭증이 본격화되자, 이를 분산하기 위한 하드웨어 진영의 움직임도 뚜렷해졌다. 이번 주에는 HP, 넷앱, 퀄컴이 동시에 같은 방향을 가리켰다.

HP는 AI 에이전트와 온디바이스 AI의 만남을 통해 ‘일의 미래’ 청사진을 제시했다. 1,000명 규모의 기업이 문서 요약이나 에이전트 기능을 전면 도입할 경우 클라우드 토큰 사용료가 어떻게 늘어나는지를 짚으면서, 내에서 처리해 보안성을 높인 지능형 플랫폼을 대안으로 내놓았다. 사용자는 화면 상단에 상시 표시되는 ‘Visor’라는 인터페이스를 통해 에이전트와 상호작용한다.

이 발표가 의미심장한 이유는 인터페이스 자체에 있다. 화면 상단에 상시 표시되는 에이전트 입력창. 카카오뱅크와 신한은행이 모바일 앱을 슈퍼에이전트로 진화시키는 흐름과 정확히 같은 발상인데, 이번에는 PC라는 더 넓은 캔버스에서 일어난다. 사용자가 메뉴를 찾아 들어가는 게 아니라, 에이전트가 항상 한 단계 위에서 대기하다가 호출되는 구조. OS 위에 에이전트 레이어가 추가되는 셈이다.

넷앱은 인텔 코리아, 테라텍, SK네트웍스서비스와 협력해 ‘인텔 제온 6 기반 NetApp AIPod Mini’를 발표했다. NetApp AIPod Mini의 실제 사용 사례에는 법무팀의 문서 초안 및 연구 자동화, 리테일 분야에서의 개인화 쇼핑이 포함됐다. 이건 본격적인 온프레미스 추론 박스다. GPU가 아닌 CPU(인텔 제온 6) 기반으로 추론을 돌리겠다는 발상도 흥미롭다. 모든 추론에 GPU가 필요한 게 아니라, 어떤 워크로드는 CPU로도 충분하다는 인식이 시장에 자리를 잡고 있다는 뜻이다.

퀄컴은 1분기 실적을 메모리 가격 인상에도 불구하고 가이던스에 부합하게 달성했다고 발표하면서, “AI 에이전트(비서)의 등장이 퀄컴의 플랫폼 로드맵을 재편한다”고 강조했다. 모바일 디바이스에서 에이전트가 직접 도는 시대가 온다는 신호다. 모든 토큰을 클라우드로 보내지 않고, 일부는 디바이스 안에서 처리하겠다는 그림이다.

세 회사가 동시에 가리키는 방향이 명확하다. 클라우드 일변도의 비용 구조에서 벗어나, **클라우드(범용 추론) + 온프레미스(민감 데이터) + 온디바이스(저지연·저비용)**라는 3계층 아키텍처가 표준이 되어 간다. 이 분산 구조가 자리잡으면 토큰 비용은 더 이상 단일 통화가 아니다. 같은 작업이라도 어디서 처리하느냐에 따라 단가가 10배씩 차이 난다. 그래서 작업의 민감도, 응답 지연 요구, 호출 빈도에 따라 라우팅하는 의사결정이 새로운 아키텍처 역량이 된다.

이 부분이 Azure AI 기반 RAG 파이프라인 설계 클러스터에서 다뤘던 엔터프라이즈 환경의 특성과 맞물린다. 한국 기업들은 데이터 주권 문제 때문에 모든 토큰을 글로벌 클라우드로 보낼 수 없다. NetApp AIPod Mini 같은 온프레미스 박스가 한국 시장에서 의미를 갖는 이유다. 보안과 비용 두 마리 토끼를 동시에 잡는 답안이기 때문이다.

보안과 거버넌스, 자동화의 또 다른 얼굴

실행형 AI가 본격화되면 보안의 무게도 함께 올라간다. 이번 주 이글루코퍼레이션이 “쏟아지는 보안 위협, 해답은 AI 자동화”라며 SPiDER ExD가 제공하는 포괄적 보안 운영 워크플로우를 보안 특화 AI 에이전트 ‘에어(AiR)’와 결합해 자동화 수준을 다른 차원으로 끌어올린다고 발표했다. 다수의 AI 에이전트가 위협 탐지부터 분석, 장애 대응까지 수행하는 구조다.

같은 주에 공수처 디지털포렌식 사례가 같이 나왔다. 공수처는 출범 이후 처리했던 주요 사건을 정밀 분석해 핵심 유형 은폐 수법을 도출하고 실제 수사 사례를 학습시켰으며, “교육 콘텐츠는 AI를 악용한 지능형 범죄에 선제적으로 대응하고 범행의 고의성·계획성을 입증하는” 방향으로 짜인다고 한다.

이 두 기사가 같은 주에 함께 등장한 게 우연이 아니다. 에이전트가 더 많은 권한을 가지고 더 많은 행동을 하는 시대로 갈수록, 그 행동을 감시하고 검증하는 또 다른 에이전트가 필요해진다. SOC(보안 관제 센터)에 AI 에이전트가 들어오는 흐름은 이미 글로벌 표준이 됐고, 이 흐름은 거꾸로 ‘AI 범죄’에 대한 디지털포렌식 영역까지 확장된다. 에이전트가 일으킨 사건의 책임 소재를 사후에 밝혀내는 능력이 새로운 사법 인프라가 되어 가는 것이다.

실무자 관점에서 한 가지 짚으면, 에이전트 보안은 사용자 보안과 본질적으로 다르다. 사용자는 하루 8시간 동안 100건 정도 작업하는 패턴을 가진다. 에이전트는 1초에 수십 건의 작업을 한다. 사용자 행동 분석 기반의 기존 이상 탐지 도구가 에이전트 앞에서는 무용지물이 되는 이유다. 그래서 행동 기반 이상 탐지, 신원 단위 권한 통제(AI 세그멘테이션), 프롬프트 인젝션 방어 같은 새로운 키워드들이 보안팀의 표준 어휘에 합류한다. 자동화와 보안은 이제 같은 문제의 양면이다.

마무리: 2026년 엔터프라이즈 AI의 다섯 가지 새 좌표

이번 주 기사들을 모아 한 줄로 묶으면 이렇다. 범용 AI 시대가 끝나고 실행형(에이전틱) AI 시대가 본격 개막하면서, 토큰 비용·운영 비용·보안 비용이 동시에 폭증했고, 그 비용을 어떻게 분산하고 통제할 것인지가 새로운 경쟁력이 됐다. 이 변화 위에서 한국 엔터프라이즈가 짚어야 할 좌표 다섯 가지를 정리하며 글을 마무리한다.

첫째, 토큰 비용을 운영 비용으로 다시 정의해야 한다. 모델 단가만 보고 예산을 짜는 시대는 끝났다. 한 번의 사용자 요청에 따라붙는 LLM 호출 횟수, 컨텍스트 누적량, 도구 호출 빈도까지 모두 측정해 누적 비용을 관리하는 체계가 필요하다. 캐시 적중률을 높일 수 있는 RAG 검색·문서 분석 영역은 우선 도입 영역이다. 반면 매번 새 컨텍스트가 들어오는 대화형 에이전트는 토큰 폭증 위험이 가장 크다.

둘째, 클라우드 일변도에서 3계층 분산 아키텍처로 옮겨가야 한다. 모든 추론을 외부 클라우드로 보내는 구조는 비용·보안·지연 모두에서 한계에 부딪친다. 클라우드, 온프레미스, 온디바이스 세 층 사이에서 작업을 라우팅하는 능력이 향후 3년의 핵심 아키텍처 역량이다. NetApp AIPod Mini 같은 박스가 한국 시장에서 빠르게 자리를 잡을 가능성이 높다.

셋째, RPA 자산을 폐기하지 말고 흡수해야 한다. 포스코DX의 A.WORKS, 인포플라의 비전 AI 결합 RPA, 씨에스리·빅재미의 RPA + 데이터 분석 플랫폼이 모두 같은 방향을 가리킨다. 기존 RPA를 에이전트의 실행 도구로 위치시키고, 그 위에 LLM의 판단과 비전 AI의 화면 인식을 결합하는 구조다. 한국 제조업의 RPA 자산은 부담이 아니라 자산이 된다.

넷째, 산업별 도메인 맞춤화에 투자해야 한다. SAS의 우도 스클라보 부사장이 짚은 “AI는 마법이 아니다”라는 경고가 정확하다. 범용 모델을 그대로 가져다 쓰는 도입은 실패한다. 자기 산업의 워크플로, 데이터 형태, 규제 요구사항을 깊게 반영한 에이전트만이 실제 성과를 만든다. 펨로씨가 제논의 구축형 프로젝트 비중을 경쟁력으로 본 이유, 마이크로소프트가 “에이전트형 컴퓨팅 시대”를 굳이 강조한 이유가 여기에 있다.

다섯째, 보안과 거버넌스를 도입과 함께 짜야 한다. 에이전트가 행동의 자유도를 가지는 만큼, 그 행동을 감시하고 검증하는 체계가 동시에 들어와야 한다. SOC에 보안 에이전트를 도입하고, 행동 기반 이상 탐지를 깔고, 사후 추적이 가능한 감사 로그 체계를 구축하는 것은 선택이 아니라 필수다. 이 투자를 미루는 조직은 자동화의 ROI를 보안 사고로 한 번에 잃을 수 있다.

이 다섯 좌표 위에서 자기 조직의 답을 빠르게 만들어내는 기업이 다음 사이클의 승자가 될 것이다. 모델 가격이 어떻게 떨어지든, 새 GPU가 어떻게 나오든, 본질은 변하지 않는다. AI를 비용으로 보느냐, 비용 구조 자체를 바꾸는 인프라로 보느냐. 청구서 한 장에 놀라는 부서장의 자리에서 머무는 회사와, 그 청구서의 구조를 다시 설계하는 회사 사이의 격차는 향후 3년 사이에 결정적으로 벌어질 것이다.