Gemini는 어떤 인프라에서 돌아가나 – Google TPU, Vertex AI, 온디바이스 구조 해부

Google TPU, Vertex AI

브라우저를 열고 Gemini한테 말을 건네는 데 걸리는 시간은 1~2초 남짓이다. 근데 그 1~2초 사이에 무슨 일이 일어나는지 생각해본 적 있는가. 수천억 개의 파라미터를 가진 모델이 사용자 입력을 이해하고, 문맥을 파악하고, 자연스러운 답변을 생성해서 돌려보내는 과정이 그 짧은 시간 안에 전부 완료된다. 이게 가능한 이유는 Gemini 뒤에서 조용히 돌아가는 인프라 때문이다. GPU 기반 서버를 쌓아놓는 것만으로 … Read more

LangGraph AI 에이전트 시스템 설계와 실전 – 개발자 필수 아이템

langgraph AI 에이전트 개발자 필수

솔직히 말하면, 처음 LangGraph를 접했을 때 “이게 왜 필요하지?”라는 생각이 먼저 들었다. LangChain만으로도 충분하지 않나. 프롬프트 엔지니어링 잘하면 그만 아닌가. 그런데 실제로 멀티에이전트 시스템을 프로덕션에 올려본 사람이라면 알 것이다. 에이전트가 두 개만 넘어가도 상태 관리가 지옥이 된다는 걸. 2024년부터 2025년에 걸쳐 AI 개발 생태계에서 가장 뜨거운 키워드 중 하나가 바로 LangGraph였다. GPT-5 시대를 앞두고 단순한 … Read more

Chrome + Gemini : 브라우저가 AI 플랫폼이 되는 순간, 인터넷 패러다임이 바뀐다

chrome_gemini

지금 이 글을 읽고 있는 당신, 아마 Chrome 브라우저로 열었을 가능성이 높다. 전 세계 인터넷 사용자 중 65% 이상이 Chrome을 쓰고 있으니까. 그런데 최근 들어 뭔가 이상한 낌새가 느껴지지 않는가? 주소창 옆에 생겨난 낯선 아이콘, 사이드바에서 슬쩍 등장하는 AI 어시스턴트, 탭을 넘나들며 요약해주는 기능들. 단순한 업데이트가 아니다. Google이 지금 Chrome을 완전히 다른 무언가로 바꾸고 있다. … Read more

로컬 AI를 직접 운영하면서 알게 된 것들, 클라우드 없이 현실적으로 시작하는 법

로컬AI운영

회사에서 ChatGPT 쓰다가 한 번쯤 이런 생각 해본 적 없는가. “이 데이터, 외부 서버로 나가도 괜찮은 건가?” 실제로 2023년 삼성전자 반도체 부문에서 챗GPT에 소스코드를 입력한 사건 이후, 국내 대기업 상당수가 외부 AI 서비스 이용을 제한하기 시작했다. 그리고 2026년 지금, 상황은 더 심각해졌다. AI 기본법 시행을 앞두고 데이터 거버넌스에 대한 압박이 커지면서, 기업이든 개인 개발자든 “내 … Read more

LLaMA 4와 LM Studio 0.4 정리: MoE 전환과 로컬 AI 환경의 변화

LLaMA4 & LM STUDIO 0.4

작년까지만 해도 LLaMA 3 시리즈에 LM Studio 0.3을 조합해서 로컬 AI를 돌리는 게 최선이었다. 그런데 2025년 4월 메타가 LLaMA 4를 공개하고, LM Studio도 0.4 메이저 업데이트를 거치면서 상황이 완전히 달라졌다. 솔직히 말하면, LLaMA 4 Scout을 처음 H100 한 장에 올렸을 때의 충격이 아직도 생생하다. 이전 세대와는 차원이 다른 멀티모달 성능에 1000만 토큰 컨텍스트 윈도우라니. 그리고 … Read more