구글 Gemma 모델 설치부터 활용까지 (2025년)

안녕하세요,
요즘 AI 모델에 대한 관심, 정말 뜨겁죠. ChatGPT는 물론이고 Mistral, Claude, LLaMA 등 다양한 오픈소스 LLM이 쏟아져 나오고 있는데요, 오늘은 이 중에서도 개발자 친화적인 구글의 최신 모델 Gemma에 대해 이야기해보려 합니다.

2024년 말, 그리고 2025년 상반기까지 가장 핫하게 떠오른 이름 중 하나가 바로 Gemma입니다. “Gemma가 뭐길래?” 하고 궁금하셨던 분들을 위해, 이 글에서는 Gemma 모델의 개요부터 설치, 로딩, 실제 활용까지 step by step으로 하나하나 차근차근 안내드릴게요.

Contents

Gemma란 무엇인가? (2025 최신 기준)

Gemma는 구글 딥마인드가 2024년 2월에 공개한 경량 LLM 시리즈입니다. “Gemma”라는 이름은 라틴어로 “보석”을 뜻하며, 실제로도 그 이름처럼 가볍고 빠르면서도 강력한 성능을 자랑하죠.

Gemma의 핵심 특징

경량 경량 경량!: 작은 모델 (2B, 7B) 중심으로 설계
Transformer 기반 아키텍처
공개 라이선스: Apache 2.0
Hugging Face와의 강력한 통합
최신 텐서RT/TPU 최적화 모델 제공
로컬에서도 쉽게 구동 가능

왜 지금 Gemma인가?

2025년 들어 ChatGPT, LLaMA 3, Claude 3 등 강력한 모델들이 출시되었지만, “경량 + 오픈소스 + 로컬 호스팅”이라는 점에서는 여전히 Gemma가 강력합니다. 특히 MLOps 엔지니어나 스타트업 개발자들 사이에선 “가볍고 튜닝하기 좋은 모델”로 많이 쓰이죠.

또한 최근 Google은 TPU/Vertex AI 기반의 Gemma 2.0도 발표했기 때문에, 오픈소스와 클라우드 모두를 아우를 수 있는 모델이라는 점에서 활용성이 매우 높아졌습니다.

개발자가 직접 해보는 Gemma 설치 & 로딩 (Step by Step)

이제 본격적으로 실습에 들어가 볼까요? 아래 순서대로 따라 하시면 로컬에서 Gemma 모델을 바로 돌려볼 수 있습니다.

STEP 1: 기본 환경 준비

# 1. 가상환경 생성 (선택)
python3 -m venv gemma-env
source gemma-env/bin/activate

# 2. 필수 패키지 설치
pip install transformers accelerate torch huggingface_hub

Gemma는 Hugging Face에서 호스팅 중이므로 transformers 라이브러리와 통합되어 있습니다. GPU가 있다면 torch는 CUDA 버전으로 설치하세요.

STEP 2: Hugging Face에서 모델 가져오기

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "google/gemma-2b-it"  # 또는 "google/gemma-7b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")

여기서 gemma-2b-it는 instruction-tuned 버전입니다. 자연어 명령을 잘 처리하도록 튜닝된 모델이죠. 일반적인 언어 모델은 "gemma-2b"입니다.

STEP 3: 모델 테스트

from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe("Explain quantum computing in simple terms:", max_new_tokens=100)
print(result[0]['generated_text'])

아주 간단하게도 Gemma는 로컬에서 ChatGPT 스타일의 응답을 생성할 수 있습니다. 성능도 꽤 괜찮아요.

실전 활용, 웹서비스에 붙이기

이제부터는 조금 더 실전 개발에 가까운 예제입니다.

FastAPI로 간단한 inference API 만들기

from fastapi import FastAPI, Request
from pydantic import BaseModel

app = FastAPI()

class Prompt(BaseModel):
    text: str

@app.post("/generate")
def generate(prompt: Prompt):
    response = pipe(prompt.text, max_new_tokens=150)
    return {"response": response[0]['generated_text']}

로컬 호스트로 실행 후, 프론트엔드에서 이 API를 붙이면 간단한 Gemma 기반 Chat 서비스 완성!

미세조정(Fine-Tuning)은 가능한가?

2025년 기준으로 Gemma는 PEFT와 LoRA 기반의 경량 파인튜닝을 지원합니다.

예시, LoRA 기반 fine-tuning

pip install peft bitsandbytes trl

Gemma는 QLoRA, LoRA, adapter 등을 통해 GPU 메모리를 크게 아끼며 미세 조정이 가능해졌습니다. 대표적인 튜닝 도구로는 Hugging Face의 PEFT나 TRLLib, Axolotl 등이 있어요.

성능은 어떤가요? (Gemma vs Others)

모델명	파라미터	용량	특이점
Gemma-2B	2B	약 4GB	빠르고 가벼움, 로컬 적합
LLaMA3-8B	8B	약 15GB	고성능, GPU 필수
Mistral-7B	7B	13GB	빠른 응답, 하지만 Gemma보단 무거움

Gemma는 소형 모델 중에서도 속도와 효율성 측면에서 매우 우수합니다. 특히 라즈베리파이나 Jetson, Mac M1/M2 등에서도 활용 가능하다는 점이 매력적입니다.

클라우드에서 Gemma 사용하기

Gemma는 Google Cloud의 Vertex AI에서도 사용 가능합니다.

gcloud ai models predict --model="gemma-2b" ...

Vertex AI에서는 TFX, Notebooks, TPU 등을 함께 활용할 수 있어 대규모 서비스를 기획할 때 훌륭한 선택지입니다.

사용시 주의할 점

Gemma는 최신 모델이지만, 단순 언어 생성용이지 전문 분야(법률, 의학 등)에선 fine-tuning 필요
큰 파라미터 모델은 GPU 필수 (7B 이상은 최소 24GB VRAM 추천)
추론 속도는 로컬 디바이스 사양에 민감

마치며.. Gemma, 시작하기 좋은 이유 있는 모델

지금 이 순간에도 수많은 AI 모델이 쏟아지고 있습니다. 하지만 그 중에서도 Gemma는 ‘개발자 친화성’이라는 점에서 확실히 돋보입니다.

설치 쉽고
성능 좋고
경량 모델로 어디서든 돌릴 수 있고
Hugging Face와 연동도 쉬운

이런 모델, 많지 않습니다.

“AI 모델 한 번 써보고 싶었는데, 너무 무겁고 어려워서 포기했어요.”

그런 분들께 Gemma는 정말 좋은 첫 친구가 되어줄 수 있습니다.

참고 자료

“한 장의 GPU로 GPT급 성능?! Mistral로 가능할까?”