중국은 미니맥스 M3 모델 가격을 부수고, 구글은 노트북LM을 무기로 바꿨다

며칠 전 아침, AI 뉴스 두 개를 거의 동시에 봤다. 하나는 중국 미니맥스가 ‘M3’라는 모델을 내놨는데 GPT-5.5를 일부 벤치마크에서 앞서면서 가격은 미국 모델의 5~10%밖에 안 된다는 소식. 다른 하나는 구글이 노트북LM에 ‘캔버스’를 붙여서 문서 분석 도구를 통째로 작업 플랫폼으로 바꾸려 한다는 소식.

처음엔 그냥 별개의 뉴스라고 생각했다. 그런데 곱씹을수록 둘이 같은 그림의 양쪽 끝을 보여주고 있다는 생각이 들었다. 한쪽에서는 모델 자체의 가격이 바닥을 향해 무너지고 있고, 다른 한쪽에서는 그 모델을 감싸는 ‘경험’이 진짜 전쟁터가 되고 있다.

AI 경쟁의 무게중심이 이동하고 있다는 신호다. 이 두 사건을 같이 놓고 보면 그 방향이 꽤 선명하게 보인다.

Contents

미니맥스 M3, “성능은 비슷한데 가격이 10분의 1”

먼저 미니맥스 M3부터 보자. 상하이에 본사를 둔 미니맥스가 2026년 6월 1일 공개한 차세대 플래그십 모델이다.

핵심 주장은 세 가지를 하나에 담았다는 거다. 프런티어급 코딩 능력, 최대 100만 토큰의 초장문 컨텍스트, 그리고 이미지와 비디오를 기본 지원하는 네이티브 멀티모달. 거기에 데스크톱 컴퓨터를 직접 조작하는 에이전트 능력까지 붙였다. 이 조합을 오픈웨이트(open-weight) 모델로 내놨다는 게 헤드라인이다. 이 중 한두 개를 잘하는 모델은 많지만, 셋을 한꺼번에, 그것도 직접 호스팅 가능한 형태로 묶은 건 처음이라는 주장이다.

벤치마크 숫자도 인상적이다. 소프트웨어 엔지니어링 능력을 보는 SWE-벤치 프로에서 59.0%를 기록하며 GPT-5.5와 제미나이 3.1 프로를 앞질렀다. 터미널 작업 능력을 보는 터미널-벤치 2.1에서 66.0%, 도구 활용을 평가하는 MCP 아틀라스에서 74.2%를 기록했다.

그런데 가장 충격적인 건 가격이다. M3 API는 프로모션 기간 입력 100만 토큰당 0.3달러, 출력 100만 토큰당 1.2달러다. 정가도 입력 0.6달러, 출력 2.4달러 수준. 미니맥스는 이를 주요 미국 AI 모델 대비 약 5~10% 수준이라고 설명한다. 실제로 GPT-5.5와 비교하면 입력은 12배, 출력은 12.5배 저렴하다는 분석도 나온다.

MSA – 가격을 깎을 수 있었던 기술적 비밀

가격이 이렇게 낮은 게 그냥 출혈 경쟁일까. 그렇지 않다. 여기엔 실제 기술적 근거가 있다. 이 부분이 엔지니어 입장에서 가장 흥미로운 대목이다.

미니맥스가 새로 개발한 핵심 기술은 MSA(MiniMax Sparse Attention), 희소 어텐션 메커니즘이다. 기존 트랜스포머의 풀 어텐션은 입력이 길어질수록 연산량이 제곱으로 늘어나는 한계가 있다. 100만 토큰 같은 긴 컨텍스트를 처리하려면 연산 비용이 감당이 안 된다. MSA는 입력 정보를 사전에 필터링해서 필요한 부분만 선택적으로 참조하는 방식으로 이 문제를 푼다.

효과가 구체적이다. 100만 토큰 환경에서 토큰당 연산량을 이전 세대 대비 20분의 1 수준으로 줄였고, 입력을 처리하는 프리필 단계는 9배 이상, 응답을 생성하는 디코딩 단계는 15배 이상 빨라졌다. 연산량이 줄면 비용이 줄고, 비용이 줄면 가격을 낮출 수 있다. 가격 파괴의 뒤에 아키텍처 혁신이 있다는 얘기다. 단순히 손해 보면서 싸게 파는 게 아니다.

실제 활용 사례도 공개됐는데 꽤 인상적이다. M3에게 ICLR 2025 우수 논문상을 받은 논문을 주고 재현 실험을 시켰더니, 약 12시간 동안 자율적으로 작업하며 18회의 코드 커밋과 23개의 실험 그래프를 만들어 핵심 결과를 재현했다. 또 다른 실험에서는 엔비디아 호퍼 GPU용 행렬 연산 커널 최적화를 24시간 동안 수행하며 GPU 활용도를 7.6%에서 71.3%까지 끌어올려 9.4배 속도 향상을 달성했다. 긴 시간 자율적으로 일하는 능력을 보여주려는 데모다.

다만, 숫자를 그대로 믿기 전에

여기서 균형을 잡아야 한다. 이 인상적인 숫자들에는 짚어야 할 단서가 여럿 붙는다.

첫째, 벤치마크가 대부분 미니맥스 자체 인프라에서, 자체 에이전트 스캐폴딩을 붙여 측정한 결과다. 독립적인 제3자 검증은 아직 나오지 않았다. 미니맥스 스스로도 일부 사례는 “통제된 벤치마크 평가가 아니라 장기 자율 실행의 데모”라고 표현했다.

둘째, 비교 기준이 미묘하다. 미니맥스는 자사 자료에서 클로드 오퍼스 4.7을 비교 대상으로 삼았는데, M3 출시 일주일 전에 이미 더 상위 모델인 클로드 오퍼스 4.8이 나와 있었다. SWE-벤치 프로에서 M3의 59.0%는 GPT-5.5는 앞섰지만, 오퍼스 4.8의 69.2%에는 10%포인트 넘게 못 미친다. 즉 “GPT-5.5를 앞섰다”는 맞지만 “프런티어 정상을 따라잡았다”고 보긴 어렵다.

셋째, 출시 시점에 오픈웨이트가 아직 실제로 공개되지 않았다. 미니맥스는 출시 후 약 10일 안에 허깅페이스와 깃허브에 가중치와 기술 보고서를 공개하겠다고 약속했다. 이게 실제로 깨끗하게 나오고, 제3자 벤치마크가 스캐폴딩을 걷어낸 순수 성능을 검증하는 게 진짜 시험대다.

넷째, 데이터 거버넌스 문제가 있다. 호스팅 API를 쓸 경우, 중국의 2017년 국가정보법상 미니맥스가 정부에 협조해야 할 의무가 있다는 점은 기업 도입 시 반드시 따져봐야 할 부분이다. 다만 오픈웨이트를 직접 셀프호스팅하면 데이터가 외부로 나가지 않으므로 이 우려는 상당 부분 해소된다. 그래서 오픈웨이트 공개 여부가 더 중요해진다.

이런 단서들을 감안해도, 핵심 메시지는 여전히 유효하다. 프런티어에 근접한 성능을 오픈웨이트로, 압도적으로 싼 가격에 쓸 수 있는 선택지가 늘어나고 있다는 것. 그 자체가 시장 구조를 흔든다.

구글 노트북LM, 문서 도구가 작업 플랫폼이 되다

같은 시기, 결이 완전히 다른 뉴스가 구글에서 나왔다. 노트북LM 이야기다.

노트북LM은 원래 자료를 올리면 요약하고, 질문에 답하고, 팟캐스트 형태로 변환해주는 문서 분석 도구였다. 그런데 구글이 여기에 세 가지 핵심 기능을 준비 중이다. 개인 설정(Personalization), 커넥터(Connectors), 그리고 캔버스(Canvas).

개인 설정은 사용자의 과거 활동을 학습해 맞춤형 AI 페르소나를 만드는 기능이다. 노트북 안의 대화 내용과 생성물, 사용자 지침을 바탕으로 답변의 어조와 기술적 난이도를 자동으로 조정한다. 반복적인 연구나 장기 프로젝트에서 일관된 지원을 받을 수 있게 된다.

커넥터는 외부 데이터 연동 기능이다. MCP와 유사한 개념으로, 다양한 외부 서비스 데이터를 노트북LM으로 직접 불러온다. 초기엔 지메일, 구글 캘린더, 구글 드라이브 같은 구글 서비스부터 연동될 것으로 보인다.

가장 주목받는 건 캔버스다. 노트북LM 스튜디오 패널에 추가될 예정인데, 사용자가 자연어 프롬프트를 입력하면 자료를 바탕으로 원하는 형태의 결과물을 직접 만들어준다. “이 연구 자료로 인터랙티브 타임라인 만들어줘”, “이 문서를 이해하기 쉬운 웹사이트로 정리해줘” 같은 요청만으로 맞춤형 결과물이 나온다. 간단한 게임이나 시각화 도구까지 만들 수 있다. 업계에서는 이걸 바이브 코딩 개념의 확장으로 본다.

왜 이 두 사건을 같이 봐야 하나

여기서 두 뉴스가 연결된다. 표면적으로는 무관해 보이지만, AI 산업의 같은 구조 변화를 양쪽에서 보여준다.

미니맥스가 증명하는 건 이거다. 모델 자체의 성능은 빠르게 상향 평준화되고, 가격은 바닥으로 수렴하고 있다. 프런티어급에 근접한 코딩 능력을 토큰당 0.3달러에 쓸 수 있다면, “어떤 모델을 쓰느냐”는 점점 차별화 요소가 되기 어렵다. 누구나 비슷한 성능의 모델을 싸게 손에 넣는 세상으로 가고 있다.

그렇다면 차별화는 어디서 나오나. 구글 노트북LM이 답의 한 방향을 보여준다. 모델을 감싸는 ‘경험’과 ‘워크플로우’다. 노트북LM의 진짜 가치는 모델 성능이 아니라, 내 지메일과 드라이브에 흩어진 자료를 한곳에 모아서, 페르소나가 내 스타일을 기억하고, 캔버스가 그걸 바로 쓸 수 있는 결과물로 바꿔주는 통합된 경험에 있다. 모델이 무엇이든, 그걸 어떻게 내 일에 녹여주느냐가 승부처가 된다.

정리하면 이렇다. 모델 레이어에서는 가격 전쟁이 벌어져 마진이 얇아지고, 애플리케이션 레이어에서는 경험 통합 전쟁이 벌어져 진짜 가치가 쌓인다. 미니맥스는 전자를, 구글은 후자를 대표한다.

실무자라면 여기서 무엇을 읽어야 하나

이 흐름이 실제 일하는 사람에게 주는 함의는 분명하다.

모델을 고를 때 무조건 최상위 프런티어 모델만 고집할 이유가 줄어들고 있다. 작업 특성에 따라 미니맥스 M3 같은 저렴한 오픈웨이트 모델로 충분한 경우가 많다. 특히 긴 문서를 대량으로 처리하는 에이전트 워크로드라면, 100만 토큰 컨텍스트를 싼값에 쓸 수 있다는 게 경제성을 완전히 바꾼다. 전체 코드베이스나 방대한 문서를 통째로 다루는 작업이 오픈웨이트로 처음 경제적으로 가능해졌다는 평가가 나온다.

물론 검증이 먼저다. 벤더 자체 벤치마크는 참고만 하고, 실제 자기 업무에 붙여서 테스트한 뒤 판단해야 한다. 민감한 데이터를 다룬다면 호스팅 API보다 오픈웨이트 셀프호스팅을 검토하는 게 안전하다.

동시에, 모델을 어떻게 감싸느냐가 점점 더 중요해진다. 노트북LM의 커넥터와 캔버스가 보여주듯, 흩어진 데이터를 모으고 결과물로 바로 전환하는 통합 경험을 만드는 쪽이 실제 생산성을 좌우한다. 좋은 모델을 쓰는 것만으로는 부족하고, 그걸 내 워크플로우에 어떻게 끼워 넣느냐가 차이를 만든다.

무게중심은 이미 이동하고 있다

다시 처음으로 돌아가자. 같은 날 터진 두 뉴스가 가리키는 방향은 하나다.

미니맥스 M3는 모델 성능이 상향 평준화되고 가격이 무너지는 흐름을 보여준다. MSA라는 실제 아키텍처 혁신을 바탕으로, 프런티어에 근접한 성능을 미국 모델의 5~10% 가격에, 그것도 오픈웨이트로 내놨다. 다만 벤더 자체 벤치마크라는 점, 비교 기준이 구버전이라는 점, 오픈웨이트 공개와 제3자 검증이 아직 남았다는 점은 냉정하게 지켜봐야 한다.

구글 노트북LM은 모델을 감싸는 경험이 진짜 전쟁터가 되고 있음을 보여준다. 개인 설정, 커넥터, 캔버스를 통해 단순 문서 도구가 종합 생산성 플랫폼으로 진화한다. 모델이 무엇이든, 그걸 내 데이터와 워크플로우에 얼마나 매끄럽게 녹여주느냐가 가치를 결정한다.

AI 경쟁의 무게중심이 ‘누가 가장 좋은 모델을 만드느냐’에서 ‘누가 가장 싸게 충분한 모델을 공급하느냐’와 ‘누가 그 모델을 가장 잘 쓰게 만들어주느냐’로 동시에 이동하고 있다. 모델은 점점 흔하고 싼 부품이 되고, 그 위에 무엇을 올리느냐가 승부를 가른다.

이 변화 속에서 우리가 던질 질문은 분명하다. 나는 아직도 ‘어떤 모델이 제일 좋나’만 보고 있는가, 아니면 ‘그 모델로 내 일을 어떻게 바꿀까’를 보고 있는가. 답은 점점 후자 쪽에 있다.