Gemini는 어떤 인프라에서 돌아가나 – Google TPU, Vertex AI, 온디바이스 구조 해부

Google TPU, Vertex AI

브라우저를 열고 Gemini한테 말을 건네는 데 걸리는 시간은 1~2초 남짓이다. 근데 그 1~2초 사이에 무슨 일이 일어나는지 생각해본 적 있는가. 수천억 개의 파라미터를 가진 모델이 사용자 입력을 이해하고, 문맥을 파악하고, 자연스러운 답변을 생성해서 돌려보내는 과정이 그 짧은 시간 안에 전부 완료된다. 이게 가능한 이유는 Gemini 뒤에서 조용히 돌아가는 인프라 때문이다. GPU 기반 서버를 쌓아놓는 것만으로 … Read more

Azure AI Foundry 입문 가이드, GPT-5 모델 배포부터 API 호출까지 한번에 따라하기

Azure AI Foundry

작년까지만 해도 Azure에서 OpenAI 모델을 쓰려면 Azure OpenAI Service를 직접 다뤄야 했다. 약간 복잡했다. 여러 서비스를 오가야 했고, 모니터링도 헷갈렸고, 모델 배포도 손이 많이 갔다. 그런데 올해 1월 기준으로 Azure AI Foundry가 본격적으로 작동하면서 판이 바뀌었다. 이건 단순한 UI 개선이 아니라, 전체 개발 경험을 다시 생각한 플랫폼이다. 내가 처음 Azure AI Foundry를 켰을 때 느낀 … Read more

Azure VM에 vLLM 배포하기, GPU 인스턴스 선택부터 모델 서빙까지

AzureVM_vLLM배포

최근 몇 달간 Azure에서 대형 언어 모델을 서빙해야 하는 상황이 자주 생긴다. 특히 한국 기업들이 AI를 실제 서비스에 녹여내려고 할 때 그렇다. 그럼 대부분 이런 고민을 한다. “OpenAI API만 쓰면 안 되나? 왜 굳이 직접 모델을 서빙해야 하지?” 그 답은 간단하다. 비용, 지연시간, 그리고 데이터 프라이버시다. 직접 모델을 서빙하면 OpenAI 같은 외부 API에 의존하지 않아도 … Read more