온디바이스AI | AI Practice Notes

범용 AI에서 실행형 AI로, 토큰 비용 폭증이 만든 2026년 엔터프라이즈 AI 새 지형도

2026-05-112026-05-01 by Tech Leader

며칠 전 한 고객사에서 토큰 청구서를 받아 든 부서장이 “이거 진짜 맞느냐”라고 두 번 물어왔다. 원래 챗봇 PoC 한 달 비용으로 300만 원 정도 잡아두었던 항목이, 정식 운영에 들어간 다음 달 청구서에서 1,800만 원으로 찍혀 나왔다고 한다. 무엇이 잘못된 게 아니었다. 챗봇이 단순 질의응답에서 다단계 추론과 도구 호출이 들어간 ‘에이전트’로 진화하면서 토큰 사용량이 6배 가까이 … Read more

문서에서 공장으로, 공장에서 로봇으로! 폴라리스오피스가 보여주는 소프트웨어 기업의 피지컬 AI 생존 전략

2026-05-112026-04-09 by Tech Leader

솔직히 처음 이 뉴스를 봤을 때 “폴라리스오피스가 왜 로봇이야?”라는 생각이 먼저 들었다. 1억 3800만 명의 글로벌 사용자를 가진 문서 소프트웨어 회사가 휴머노이드 로봇에 AI 두뇌를 심는다는 이야기가 어색하게 들렸던 것이다. 근데 잠깐 생각을 멈추고 다시 보면 이게 오히려 굉장히 논리적인 수순이다. 소프트웨어 기업이 피지컬 AI 시대에 어떻게 살아남느냐의 문제를 정면으로 건드리고 있기 때문이다. 오늘은 폴라리스오피스가 … Read more

Chrome + Gemini API 흐름 분석! Prompt는 어떻게 라우팅되는가!

2026-05-142026-03-19 by Tech Leader

“Gemini가 내 탭 내용을 읽는다”는 말을 들었을 때, 막연하게 느껴지는 사람이 많다. 어떻게 읽는다는 건지, 어디로 보내는 건지, 내 데이터는 어디서 처리되는지. 사용자 입장에서는 그냥 사이드바에 물어보면 답이 온다는 사실만 보이고, 그 사이에 무슨 일이 일어나는지는 완전히 블랙박스다. 개발자라면 이 블랙박스가 불편하다. Chrome에 Gemini를 활용한 기능을 만들어보려고 했을 때, 처음 맞닥뜨리는 질문이 “Prompt API가 뭐고, … Read more

Gemini는 어떤 인프라에서 돌아가나 – Google TPU, Vertex AI, 온디바이스 구조 해부

2026-03-12 by Tech Leader

브라우저를 열고 Gemini한테 말을 건네는 데 걸리는 시간은 1~2초 남짓이다. 근데 그 1~2초 사이에 무슨 일이 일어나는지 생각해본 적 있는가. 수천억 개의 파라미터를 가진 모델이 사용자 입력을 이해하고, 문맥을 파악하고, 자연스러운 답변을 생성해서 돌려보내는 과정이 그 짧은 시간 안에 전부 완료된다. 이게 가능한 이유는 Gemini 뒤에서 조용히 돌아가는 인프라 때문이다. GPU 기반 서버를 쌓아놓는 것만으로 … Read more