Gemini는 어떤 인프라에서 돌아가나 – Google TPU, Vertex AI, 온디바이스 구조 해부
브라우저를 열고 Gemini한테 말을 건네는 데 걸리는 시간은 1~2초 남짓이다. 근데 그 1~2초 사이에 무슨 일이 일어나는지 생각해본 적 있는가. 수천억 개의 파라미터를 가진 모델이 사용자 입력을 이해하고, 문맥을 파악하고, 자연스러운 답변을 생성해서 돌려보내는 과정이 그 짧은 시간 안에 전부 완료된다. 이게 가능한 이유는 Gemini 뒤에서 조용히 돌아가는 인프라 때문이다. GPU 기반 서버를 쌓아놓는 것만으로 … Read more