AI 추론 시대 본격화, 인텔·SK하이닉스·구글이 같은 그림을 그리는 이유

인텔 신임 CEO 립부 탄이 1분기 실적 발표 자리에서 슬쩍 흘린 숫자 하나가 며칠째 머릿속에서 맴돌고 있다.

“AI 학습은 CPU 1개와 GPU 7~8개를 조합했다면, AI 추론은 CPU 1개와 GPU 3~4개를 결합한다.” 그러면서 그는 “에이전틱(자율) AI와 멀티 에이전트 시대에는 반대 방향으로 바뀔 수도 있다”고 덧붙였다. 별것 아닌 비율 이야기처럼 들리지만, 인프라 쪽 일을 해본 사람이라면 이 한 문장이 던지는 무게가 훨씬 무겁다는 걸 안다. 이건 단순히 칩 몇 개를 더 쓰느냐 마느냐의 문제가 아니라, 지난 5년간 AI 산업을 지배해온 ‘학습 중심 컴퓨팅’에서 ‘추론 중심 컴퓨팅’으로의 지각변동이 시작됐다는 신호다.

같은 주에 쏟아진 기사들이 정확히 이 방향을 가리키고 있었다. 인텔 1분기 매출이 시장 전망을 상회한 136억 달러를 찍었고, SK하이닉스는 게임체인저론과 함께 200만원 목표가 이야기가 나왔으며, 구글 클라우드는 Vertex AI를 사실상 새 허브로 재편한 AI 에이전트 통합 플랫폼을 공개했다. 오픈AI는 에이전트 능력에서 GPT-5.5로 1위를 탈환했고, 신한은행과 카카오뱅크는 자사 앱을 ‘슈퍼에이전트’로 진화시키는 작업에 들어갔다. 보안 영역에서는 AI 세그멘테이션이라는 새 개념이 등장했고, ILO와 국내 노동시장 분석은 일자리 지형 자체가 다시 짜이고 있다는 보고서를 내놓았다.

흩어진 뉴스 같지만, 한 줄로 꿰면 답이 명확하다. 추론 비용이 기하급수로 늘어나는 멀티에이전트 시대가 본격 개막했고, 칩부터 클라우드, 앱, 보안, 그리고 일자리까지 모든 레이어가 동시에 재편되고 있다는 것이다. LangGraph 기반 멀티에이전트를 실제로 굴려보고 vLLM으로 추론 비용을 매일 들여다보는 입장에서, 이 변화가 의미하는 바를 한 번 정리해 봤다.

Contents

학습은 끝나지 않았지만, 무게중심은 추론으로 넘어갔다

가장 먼저 다시 짚어야 할 건 인텔 CEO의 그 발언이다. “AI 학습은 CPU 1 + GPU 7~8, AI 추론은 CPU 1 + GPU 3~4″라는 비율 자체보다, 그 비율이 의미하는 작업 부하 구조가 훨씬 중요하다.

학습은 한 번 거대한 모델을 만들면 끝나는 일회성 워크로드다. GPU를 수천 대씩 묶어 몇 주 동안 돌리고, 결과물 하나를 뽑는다. 반면 추론은 24시간 돌아가는 운영 워크로드다. 사용자가 질문할 때마다, 에이전트가 도구를 호출할 때마다, 멀티에이전트가 서로 메시지를 주고받을 때마다 GPU가 한 번씩 깨어난다. 학습 1회의 비용은 큰 한 방이지만, 추론 비용은 매분 매초 누적된다. 누적의 힘이 더 무섭다.

vLLM으로 사내 모델 서빙을 직접 운영해 본 경험으로 말하자면, 에이전트 시스템에서 추론 비용이 폭발하는 지점은 따로 있다. 단일 LLM 호출 한 번이 아니라, 한 번의 사용자 요청에 따라붙는 도구 호출, 자기 검증, 다중 에이전트 간 토론, 메모리 조회까지 모두 합산되는 순간이다. 사용자는 한 번 질문했는데, 백엔드에서는 LLM이 30번 호출되는 일이 흔하다. 그래서 멀티에이전트 시대가 본격화될수록 추론 인프라 부담은 학습 시대와는 비교조차 되지 않을 만큼 커진다.

립부 탄이 “에이전틱 AI와 멀티에이전트 시대에는 반대 방향으로 바뀔 수도 있다”고 말한 대목도 이 맥락이다. 추론은 단순히 GPU 비율을 줄여주는 작업이 아니다. 에이전트가 정교해질수록 외부 시스템 호출, 데이터베이스 조회, 워크플로 분기 같은 CPU 집약적 작업이 함께 늘어난다. 그래서 다시 CPU 비중이 올라갈 가능성이 있다는 이야기다. 인텔이 파운드리와 패키징에 사활을 거는 진짜 이유가 여기에 있다. 학습 시장은 엔비디아에 내줬지만, 추론 시장은 다시 균형이 잡힐 여지가 있고 패키징 기술이 그 변곡점에서 결정적 역할을 한다고 보는 것이다.

인텔 1분기 매출 136억 달러가 시장 전망을 상회했다는 소식도 단순한 어닝 서프라이즈로만 읽으면 안 된다. 데이터센터 사업이 회복 신호를 보였다는 건, 추론 워크로드가 늘어나면서 CPU 수요가 다시 살아나고 있다는 방증에 가깝다. 클라우드 사업자들이 추론 전용 인스턴스를 쏟아내고 있고, 이들 인스턴스에는 강력한 CPU와 빠른 메모리 대역폭이 함께 필요하다.

실무자 관점에서 한 가지 덧붙이면, 추론 최적화는 이제 선택이 아니다. KV 캐시 관리, 배치 처리, 양자화, 스페큘러티브 디코딩 같은 키워드들이 그동안은 연구 논문 속 단어였는데, 지금은 운영 비용을 결정하는 실무 키워드로 내려와 있다. 에이전트를 프로덕션에 올리려는 조직이라면 모델 선택보다 추론 스택 설계에 먼저 시간을 쏟아야 한다. 모델은 갈아 끼울 수 있지만, 잘못 짠 추론 스택은 비용으로 매달 청구된다.

메모리가 다시 주연으로, SK하이닉스 게임체인저론의 진짜 의미

추론 중심 시대로의 전환은 메모리 산업에 더 직접적이고 강력한 영향을 미친다. SK하이닉스가 ‘AI 에이전트의 게임체인저’로 부상하며 코스피 시가총액 지형을 흔들고 있다는 분석이 그래서 등장한 것이다. AI가 LLM 중심에서 다양한 직무에서 고난도 추론 작업을 수행하는 AI 에이전트로 진화하면서, 메모리 수요가 HBM뿐 아니라 D램과 낸드플래시 부문으로까지 확대되고 있다는 진단이다.

이 흐름의 본질이 뭔지 RAG 파이프라인 설계자 관점에서 풀어보자. 학습 시대의 메모리 병목은 단순했다. 거대한 가중치 행렬을 GPU에 올리느냐 마느냐의 싸움이었고, 그래서 HBM이 필요했다. 추론 시대의 메모리 병목은 훨씬 다층적이다. KV 캐시는 매 요청마다 GPU 메모리를 갉아먹고, 벡터 DB는 거대한 임베딩 인덱스를 빠르게 검색하기 위해 D램과 SSD를 함께 요구한다. 멀티에이전트가 공유하는 단기 메모리 스토어는 다시 빠른 D램을 필요로 하며, 장기 메모리 아카이브는 낸드플래시 기반 스토리지로 흘러간다. 한 줄로 정리하면, 에이전트 한 대가 작동할 때 HBM·D램·낸드플래시가 동시에 일하는 구조가 만들어진다.

또 다른 SK하이닉스 분석 기사에서 한 증권사 애널리스트가 “AI 시장은 생성형 AI에서 에이전트 AI를 거쳐 피지컬 AI로의 확장이 예상된다. 이는 AI 산업 전반의 패러다임 전환이자 메모리 가격 상승의 구조적 변화를 의미한다”고 설명한 부분이 인상적이다. 피지컬 AI까지 가면 메모리 수요는 한 번 더 점프한다. 로봇과 자율주행이 실시간으로 환경을 인지하고 판단하려면 엣지 디바이스에 강력한 추론 능력이 들어가야 하고, 거기에는 또 다른 형태의 메모리가 필요하다.

이 그림이 그대로 그려진다면 메모리 사이클은 과거와 다르게 움직일 가능성이 높다. 과거 메모리 사이클은 PC, 스마트폰, 데이터센터 같은 단일 카테고리가 한 번에 끌어올렸다가 한 번에 식는 패턴이었다. 이번 사이클은 학습용 HBM이 1차로 끌어올렸고, 추론용 D램과 캐시가 2차로 받쳐주며, 곧 피지컬 AI가 3차로 이어지는 다단 로켓 구조다. 사이클의 폭이 더 길고 더 다층적이라는 뜻이다.

물론 메모리 가격이 무한정 오를 수는 없다. CXL이라는 새 표준이 메모리 풀링을 가능하게 하면서 데이터센터의 메모리 활용 효율을 끌어올리고 있고, 양자화 기술 발전으로 동일 모델을 더 적은 메모리로 돌리는 게 가능해지고 있다. 그러나 그 효율 향상보다 에이전트가 만들어내는 메모리 수요 증가가 더 빠른 게 지금 상황이다. 그래서 SK하이닉스 200만원 목표가 같은 숫자가 진지하게 이야기되는 것이다. 단순한 호재성 보도가 아니라, 산업 구조 전환 위에 올라탄 기업이 받는 프리미엄으로 봐야 한다.

엔지니어 입장에서 이 흐름이 무서운 이유는 따로 있다. 추론 비용 = 메모리 비용이 점점 더 명확해지고 있다는 점이다. 과거에는 GPU 시간이 비용의 대부분이었는데, 이제는 메모리 대역폭과 용량이 차지하는 비중이 빠르게 올라간다. 에이전트 아키텍처를 설계할 때 메모리 효율 관점에서 의사결정해야 하는 시대가 됐다는 뜻이다.

GPT-5.5와 구글 Vertex AI, 모델 위에서 시작된 플랫폼 전쟁

같은 주에 모델 레이어와 플랫폼 레이어에서도 큰 발표가 동시에 터졌다. 오픈AI는 GPT-5.5를 출시하면서 에이전트 능력 평가에서 미소스(Mythos)를 꺾고 세계 1위를 탈환했다고 밝혔다. 이전 모델들이 텍스트 생성에 집중했다면, GPT-5.5는 복잡하고 다단계 임무를 계획하고 도구를 사용하며, 위험이 높은 활동, 민감한 사이버 요청, 반복적인 오용에 대한 보호 장치를 강화했다는 설명이 따라붙었다.

이 발표가 던지는 가장 큰 메시지는 모델 평가 기준 자체가 바뀌었다는 것이다. 작년까지만 해도 모델 비교는 추론 능력, 수학 문제 해결, 코딩 정확도 같은 전통적 벤치마크 중심이었다. 그런데 이제는 ‘에이전트로서의 능력’이 1순위 평가 항목이다. 다단계 계획을 세울 수 있는가. 도구를 정확하게 호출하는가. 실패했을 때 스스로 복구하는가. 위험한 요청을 적절히 거부하는가. 모델 라운드의 승부가 이런 항목에서 갈린다.

GPT-5.5가 강조한 보호 장치 강화도 의미심장하다. 위험한 활동, 민감한 사이버 요청, 반복적인 오용에 대한 방어. 이건 단순히 윤리적 안전장치가 아니라, 에이전트 시대 모델 채택의 핵심 변수다. 기업이 모델을 프로덕션에 올리려면 보안 사고 가능성을 최소화해야 하는데, 모델 자체가 위험한 도구 호출을 거부할 수 있어야 그 부담이 줄어든다.

같은 시점에 구글 클라우드는 AI 에이전트 통합 플랫폼을 공개했다. 기존 Vertex AI를 사실상 새 허브로 재편한 것으로, 기업이 AI 에이전트를 만들고 배포하고 통제하는 전 과정을 하나의 플랫폼에서 처리하겠다는 구상이다. 이 발표는 미국 라스베이거스에서 열린 구글 클라우드 행사 자리에서 나왔다.

플랫폼 통합은 이번 변화의 핵심 키워드다. 지난 1년간 에이전트 개발은 도구의 난립 시대를 지나왔다. LangChain, LangGraph, LlamaIndex, AutoGen, CrewAI 같은 프레임워크가 우후죽순 등장했고, 각자 다른 추상화와 다른 학습 곡선을 요구했다. 한 프로젝트에서 여러 프레임워크를 혼합해야 하는 경우도 있었고, 유지보수 부담이 만만치 않았다. 구글이 Vertex AI 위에 통합 플랫폼을 올린 건 이 난립 상태를 종결시키겠다는 시도다. 보안과 거버넌스까지 포함된 한 묶음의 표준 도구를 제공해, 에이전트 개발의 공통 기반을 가져가겠다는 전략이다.

흥미롭게도 마이크로소프트와 AWS도 비슷한 방향으로 움직이고 있다. Azure AI Foundry는 에이전트 워크플로 관리 기능을 빠르게 확장 중이고, AWS는 Bedrock Agents에 멀티에이전트 협업 기능을 추가했다. 클라우드 빅3가 동시에 ‘에이전트 통합 플랫폼’을 깃발로 든 것은, 이 시장이 향후 5년 클라우드 매출 성장의 핵심 동력이라고 판단했다는 뜻이다.

실무자 입장에서 이 통합 플랫폼들은 양날의 검이다. 빠른 프로토타이핑과 보안·거버넌스 측면에서는 분명히 큰 이점이 있다. 그러나 락인 효과 또한 강하다. 한 번 Vertex AI 에이전트 빌더 위에서 시스템을 구축하면, 다른 클라우드로 이전하는 비용이 만만치 않다. 그래서 큰 조직일수록 멀티 클라우드 전략과 에이전트 추상화 레이어를 동시에 고민해야 한다. 모델은 OpenAI든 Anthropic이든 갈아끼울 수 있게 만들고, 에이전트 오케스트레이션은 표준 프로토콜인 MCP 기반으로 가져가는 식이다. 플랫폼 의존도를 적절히 관리하는 것이 향후 3년간 가장 중요한 아키텍처 의사결정이 될 것이다.

신한은행과 카카오뱅크, ‘슈퍼앱’이 ‘슈퍼에이전트’로 진화한다

이런 인프라와 플랫폼 변화가 사용자 입장에서 가장 먼저 체감되는 영역이 모바일 앱이다. 이번 주 신한은행과 카카오뱅크가 던진 신호가 그 변곡점을 잘 보여준다.

신한은행은 종합소득세 관련 비대면 서류발급 안내 서비스를 시행한다고 발표했다. AI 에이전트를 활용해 관련 서류 발급 수요가 있는 고객을 분석해 선제적으로 안내하고, 비대면 발급 절차를 보다 편리하게 이용할 수 있도록 지원한다는 내용이다. 표면적으로는 작은 기능 추가처럼 보이지만, 그 안에 담긴 설계 철학은 훨씬 깊다. ‘고객이 메뉴를 찾아 들어와 신청하는’ 방식이 아니라, ‘에이전트가 고객 상황을 분석해 먼저 다가가는’ 방식으로 인터랙션 자체가 뒤집힌 것이다.

카카오뱅크는 더 노골적으로 같은 방향을 잡았다. 대화형 AI 도입 배경 설명에서 “메뉴를 찾아 들어가는 대신 질문을 던지면 필요한 금융서비스를 안내받는” 구조를 만들었다는 게 핵심이다. 해당 서비스는 챗GPT 기반으로 작동하며 가드레일과 검색증강생성(RAG) 등 자체 기술을 결합해 답변의 정확도를 끌어올렸다고 한다. AI 슈퍼앱 전쟁이 격화하면서 모바일뱅킹 앱 판도가 뒤집힌다는 분석이 함께 따라붙었다.

이 변화의 의미는 RAG 시스템을 직접 설계해 본 입장에서 더 분명하게 보인다. 금융 도메인에서 RAG는 단순히 답변 정확도를 높이는 기술이 아니라, 에이전트의 모든 답변을 검증 가능한 출처에 정박시키는 안전장치다. 고객이 ‘내 신용대출 한도 얼마예요’라고 물었을 때 LLM이 임의로 답하면 사고가 난다. RAG가 사내 데이터베이스에서 정확한 한도 정보를 가져오고, LLM은 그 정보를 자연어로 풀어 전달한다. 가드레일은 그 답변이 약관 범위를 벗어나지 않는지 한 번 더 검증한다. 카카오뱅크가 가드레일과 RAG를 동시에 강조한 건 이 모든 검증 레이어가 프로덕션 수준에 올라왔다는 뜻이다.

모바일 앱이 슈퍼에이전트로 진화하면 비즈니스 모델도 함께 바뀐다. 메뉴 클릭 기반 앱은 사용자에게 모든 메뉴를 노출시키고, 그 위에 광고나 추천을 얹어 수익을 만든다. 에이전트 기반 앱은 사용자가 한 번의 질문으로 원하는 결과에 도달하기 때문에, 중간 노출 영역이 사라진다. 그래서 네이버, 카카오 같은 플랫폼들이 검색 광고 성장 둔화를 우려하는 것이다. 신한은행, KB, 하나금융지주 같은 금융사들은 이 전환에서 오히려 기회를 본다. 기존에 자사 앱 안에서 메뉴를 헤매던 고객들이 에이전트와 대화하면서 더 많은 상품을 자연스럽게 발견하게 되기 때문이다.

무신사의 뷰티 진출도 같은 맥락에서 읽힌다. 채용을 이어가며 뷰티 조직을 계속 확대할 계획이라며 성수동에 패션·뷰티 허브로 입지를 굳힌다는 발표가 나왔다. 올리브영과의 본격 경쟁이 시작된 것인데, 이런 영역 확장은 결국 슈퍼앱 전략의 일부다. 사용자가 ‘여름에 어울리는 데일리 룩 추천해줘’라고 에이전트에게 물으면, 옷부터 화장품, 액세서리까지 한 번에 추천이 나오는 구조를 만드는 것이다. 패션과 뷰티의 경계가 에이전트 시대에는 사라진다.

에이전트 보안의 새 지평, AI 세그멘테이션이 등장한 이유

에이전트가 기업 시스템 깊숙이 들어오면 자연스럽게 보안 문제가 따라온다. 이번 주 N2SF(국가망 보안 프레임워크) 시행을 앞두고 보안 시장이 들썩이는 가운데, AI·보안 대공세를 보여준 사례 중 하나가 트러스트 보안 스타트업 제로 네트웍스(Zero Networks)였다. 기업 내 AI 에이전트들을 신원 기반으로 통제하고 AI를 활용한 네트워크 횡적 이동(lateral movement)을 차단하는 ‘AI 세그멘테이션(AI Segmentation)’ 개념을 내세웠다.

AI 세그멘테이션이라는 용어가 낯설게 들릴 수 있는데, 기존 네트워크 세그멘테이션을 에이전트 시대에 맞게 확장한 개념이라고 보면 된다. 전통 네트워크 보안은 IP 주소와 네트워크 영역을 기준으로 방어선을 친다. 그런데 에이전트는 네트워크 영역을 자유롭게 넘나들면서 여러 시스템을 호출한다. CRM에 접근했다가 이메일 시스템을 호출하고, 다음에는 DB에 쿼리를 던지는 식이다. 에이전트 하나가 탈취되면 그 에이전트가 가진 모든 권한이 한꺼번에 위협이 된다.

AI 세그멘테이션은 이 문제를 신원 단위 통제로 푼다. 에이전트마다 별도의 신원을 부여하고, 각 신원이 어떤 시스템에 어떤 행동을 할 수 있는지 정밀하게 제한한다. 횡적 이동, 즉 한 시스템에서 다른 시스템으로 권한이 확장되는 경로를 사전에 차단한다. 이 모델은 제로 트러스트 아키텍처의 자연스러운 확장이다.

실무자 관점에서 에이전트 보안은 지금까지 본 어떤 보안 영역보다 까다롭다. 사용자 보안은 ‘사람은 하루 8시간 동안 100건 정도 작업한다’는 패턴을 전제로 짜여 있는데, 에이전트는 1초에 수십 건의 작업을 한다. 사용자 행동 분석(UBA) 기반 이상 탐지 도구가 에이전트 앞에서는 무용지물이 되는 이유다. 에이전트 행동을 실시간으로 모니터링하고, 정상 패턴을 학습하며, 이상 행동을 빠르게 잡아내는 별도의 관제 체계가 필요하다.

또 한 가지 중요한 변화는 프롬프트 인젝션 방어다. 에이전트가 외부 데이터, 예를 들면 이메일이나 웹페이지에서 정보를 읽어들일 때, 그 안에 숨겨진 악성 지시문이 에이전트의 판단을 조작하는 공격이 가능하다. 이게 단순한 입력 필터링으로 막히지 않는다. 에이전트의 컨텍스트와 신뢰도를 함께 평가하는 정교한 방어 모델이 필요하다. 시스코의 아스트릭스 시큐리티 인수 협상, 제로 네트웍스의 AI 세그멘테이션, 그리고 빠르게 형성되고 있는 LLM 보안 스타트업 생태계가 모두 이 흐름 위에 있다.

기업이 에이전트를 도입하면서 보안에 충분한 투자를 하지 않는 경우가 정말 많은데, 이건 정말 위험한 결정이다. 에이전트가 일으킬 수 있는 보안 사고의 범위가 단순한 데이터 유출을 훨씬 넘어선다. 에이전트가 자동으로 거래를 일으키거나, 결재를 진행하거나, 외부 API를 호출할 수 있는 권한을 가진 순간, 한 번의 사고가 회사의 비즈니스 자체를 흔들 수 있다. AI 거버넌스 프레임워크와 보안 통제, 모니터링 체계가 에이전트 도입과 함께 구축되어야 한다는 게 이번 주 뉴스들이 공통으로 던지는 메시지다.

일자리는 사라지지 않는다, 다만 처음부터 다시 짜인다

마지막으로 짚어야 할 주제, 결국 가장 무거운 주제가 일자리다. 두 개의 ‘AI로 읽는 경제’ 시리즈 기사가 같은 결론을 가리키고 있었다. 2025년 업데이트는 생성형 AI의 영향이 직업의 전면 소멸보다 직무의 재구성에 더 가깝다고 봤고, 특히 사무·행정 직군의 노출도가 높은 반면 전문·기술 직무에서도 AI의 활용 범위가 빠르게 넓어지고 있다고 분석했다. 또 다른 기사는 국제노동기구(ILO)도 생성형 AI의 영향은 대량 소멸보다는 직무 재편과 변형에 더 가깝다고 봤으며, “AI의 핵심은 일자리 제거보다 일의 방식과 시장의 구조를 바꾸는 것에 있다”고 정리했다.

이 결론에 동의하면서도, 한 가지 단서를 붙이고 싶다. ‘대량 소멸은 아니다’와 ‘내 일자리는 안전하다’는 완전히 다른 이야기라는 점이다. 직무가 재편된다는 건, 같은 직책 안에서도 핵심 업무가 통째로 바뀐다는 의미다. 마케팅 직군의 사례를 들면, 콘텐츠 작성, 광고 카피, 1차 시장 조사 같은 업무는 빠르게 AI에게 넘어간다. 마케터의 새 역할은 AI가 만든 결과물을 큐레이션하고, 브랜드 톤에 맞게 다듬으며, 캠페인 전략을 설계하는 쪽으로 옮겨간다. 직장은 유지되지만 일하는 방식은 완전히 달라진다.

이 전환이 가장 빠르게 일어나는 영역이 사무·행정 직군이라는 분석은 현장에서도 똑같이 관찰된다. 영주시 챗영주 사례, 인사혁신처 e-사람 사례, 우리은행 29개 업무 영역 자동화 같은 뉴스들이 그 증거다. 반복적이고 규칙 기반인 업무일수록 에이전트로 대체된다. 그러나 동시에 새 일자리도 빠르게 생긴다. 저축은행이 AI 운영 담당, AI 개발자, AI 혁신팀 팀장 자리를 동시에 채용하는 모습이 그 단면이다. 무신사가 뷰티 조직을 확장하며 채용을 이어가는 모습도 같다.

ILO 보고서가 강조한 “진짜 전장은 새로 생기는” 영역이라는 표현이 핵심이다. 옛 일자리와 새 일자리 사이의 미스매치, 그리고 그 사이에서 발생하는 재교육 비용이 향후 5년간 가장 큰 사회적 과제가 된다. 이 전환을 잘 관리하는 국가와 기업이 이번 사이클의 승자가 될 것이고, 그렇지 못하면 일자리 양극화가 심화될 것이다.

개인 차원의 대응 전략도 명확해진다. AI를 잘 다루는 사람과 AI에 대체되는 사람, 이 두 그룹의 격차가 빠르게 벌어진다. 직무가 무엇이든, 자기 분야의 일을 AI 에이전트와 함께 처리하는 워크플로를 빨리 익히는 게 중요하다. 코딩을 못 해도, 데이터 분석을 못 해도 괜찮다. 자기 도메인 지식을 가진 상태에서 에이전트에게 정확한 요구사항을 던지고, 결과를 비판적으로 평가할 수 있는 능력이 새로운 핵심 역량이다.

마무리: 추론 시대의 진짜 게임은 이제 시작이다

이번 주 기사들을 한 줄로 묶으면 이렇다. AI 학습 시대의 황금기가 지나고, 추론 중심 멀티에이전트 시대가 본격 개막했으며, 인텔과 SK하이닉스 같은 인프라 기업, 오픈AI와 구글 같은 모델·플랫폼 기업, 신한은행과 카카오뱅크 같은 응용 기업, 제로 네트웍스 같은 보안 기업, 그리고 ILO 같은 노동 분석 기관까지 모두가 같은 방향을 가리키고 있다.

이 전환에서 한국 기업이 잡아야 할 핵심 포인트 세 가지를 정리하며 글을 마무리한다.

첫째, 추론 비용이 곧 경쟁력이다. 좋은 모델을 빌려 쓰는 것보다 자기 워크로드에 맞는 추론 스택을 설계하는 능력이 훨씬 중요하다. KV 캐시 관리, 양자화, 배치 처리 같은 기술이 단순 운영 노하우가 아니라 사업 수익성을 결정하는 변수가 됐다. 메모리 효율은 비용 효율과 같은 말이다. 이 영역에서 SK하이닉스가 누리는 구조적 수혜를 한국 IT 기업들도 응용 단에서 흡수해야 한다.

둘째, 플랫폼 락인을 관리하면서 빠르게 움직여야 한다. 구글 Vertex AI, Azure AI Foundry, AWS Bedrock 모두 매력적이지만, 한 플랫폼에 깊이 묶이면 향후 협상력을 잃는다. 모델 추상화, MCP 기반 도구 통합, 에이전트 오케스트레이션 표준 채택 같은 의사결정을 처음 아키텍처를 그릴 때 함께 가져가야 한다. 늦으면 비용으로 청구된다.

셋째, 보안과 거버넌스를 도입과 함께 짠다. 에이전트가 만들어내는 새로운 공격 표면, 새로운 컴플라이언스 요구, 새로운 책임 분담 구조에 대비해야 한다. AI 세그멘테이션, 프롬프트 인젝션 방어, 행동 기반 이상 탐지 같은 키워드들이 이제 보안팀의 표준 어휘에 포함되어야 한다.

추론 시대의 게임은 이제 시작이다. 지난 5년이 학습 모델 크기 경쟁이었다면, 다음 5년은 누가 더 빠르고 정확하고 안전한 에이전트를 굴릴 수 있느냐의 싸움이다. 이 경기장에서 한국 기업들은 메모리, 통신, 금융, 커머스 같은 강점 영역을 가지고 있다. 다만 그 강점이 자동으로 승리로 이어지지는 않는다. 위에서 정리한 세 가지 질문에 자기 조직의 답을 빠르게 만들어 낸 곳이 다음 사이클의 주인공이 될 것이다.