LLM 개발, 어디까지 해봤니? Post-training 완전 정복 가이드

요즘 누구나 한 번쯤은 들어봤을 법한 ‘LLM(대형 언어 모델)’. ChatGPT처럼 사람처럼 말하고, 생각하고, 글까지 써주는 인공지능의 비밀은 과연 무엇일까요?

오늘은 그 중에서도 LLM이 사용자 명령에 제대로 반응하도록 만드는 핵심 과정, Post-training에 대해 알아보겠습니다. 만약 여러분이 AI 모델을 실제로 개발하고자 한다면, Pre-training만으로는 끝나지 않는다는 사실을 반드시 기억하셔야 합니다.

그럼 지금부터 함께 알아볼까요?


STEP 1: Pre-training만으로는 부족하다?

먼저 전제를 하나 짚고 넘어가야 합니다.

“Pre-training은 세상의 지식을 아는 데까지, Post-training은 그것을 우리 말로 잘하게 만드는 과정이다.”

Pre-training은 정말 위대합니다. 인터넷에 있는 수많은 텍스트를 읽고, 세상의 구조와 지식, 문법까지 모두 익혀요. 마치 백과사전을 다 외운 천재와 같죠.

하지만 문제는 여기서 끝이 아니라는 겁니다. 모델은 아직 ‘내가 왜 이 명령을 받고, 어떤 방식으로 응답해야 하는지’는 잘 모릅니다. 사용자 요청을 실제로 수행하는 능력은 따로 가르쳐야 하거든요.

이게 바로 Post-training의 역할입니다.

STEP 2: Post-training이란 무엇인가요?

Post-training은 말 그대로 “후속 학습”입니다. 모델이 Pre-training을 마친 뒤, 사용자 지시를 따르도록 훈련시키는 단계죠.

예를 들어, 누군가 “기후 변화에 대해 3줄 요약해줘”라고 하면, 그 요청을 제대로 이해하고 요약까지 해야 하잖아요?
바로 그런 능력을 길러주는 게 Post-training입니다.

목표는 뭘까요?

  • 사용자의 명령어(Prompt)를 이해하고,
  • 적절한 응답(Response)을 스스로 생성하며,
  • 다양한 문맥에서 추론 능력까지 갖추도록 하는 것!

그러기 위해선 어떻게 해야 할까요?

STEP 3: Post-training의 두 가지 핵심 방식

Post-training에는 크게 두 가지 접근법이 있습니다.

  1. Supervised Fine-tuning (SFT)
  2. Preference-based Learning (선호도 기반 학습)

이 두 과정을 잘 이해하고 직접 수행할 수 있어야, 진짜 ‘사람처럼 반응하는 LLM’을 만들 수 있어요.

STEP 4: Supervised Fine-tuning (SFT)

SFT는 가장 첫 단계입니다. 여기선 모델에게 사람의 예제를 보여주며, 이렇게 대답하라고 가르칩니다.

예시:

Prompt Response
“오늘 날씨 어때?” “오늘 서울은 맑고 기온은 28도입니다.”
“자기소개 해줘.” “안녕하세요! 저는 사용자 질문에 답변하는 AI입니다.”

이렇게 수천, 수만 개의 ‘입력-출력 쌍’을 학습시켜야 해요.

개발자가 해야 할 실제 작업

  • 데이터 수집: 좋은 품질의 Prompt-Response 데이터 확보 (예: 공개 데이터셋, 자체 수집)
  • 데이터 정제: 불완전한 답변, 비속어, 편향된 내용 필터링
  • 토크나이징 및 포맷팅: 모델이 읽을 수 있게 데이터 전처리
  • 파인튜닝 수행: Hugging Face Transformers 라이브러리나 자체 프레임워크 활용

주의사항

  • 너무 짧거나 모호한 Prompt는 피하고, 다양한 문맥을 반영한 예제를 많이 포함하세요.
  • 가능한 한 다양한 태스크 유형(질문 응답, 요약, 번역 등)을 포함해야 모델이 범용적으로 똑똑해집니다.

STEP 5: Preference-based Learning

자, 이제 SFT로 기본기를 다졌다면, 다음은 모델이 더 “똑똑한 선택”을 하도록 가르치는 과정입니다.

이게 바로 Preference-based Learning입니다.

왜 필요한가요?

SFT만으로는 여전히 모델이 **”무엇이 좋은 답변인지”**는 잘 모릅니다. 사람은 이 두 답변 중 어떤 것이 더 좋은지 직관적으로 알지만, 모델은 그렇지 않아요.

그래서 우리는 다음과 같이 좋은 응답과 나쁜 응답 쌍을 만들어서 모델이 비교하고 학습하게 합니다.

예시:

Prompt Response A Response B 선택
“자기소개 해줘” “안녕하세요.” “안녕하세요! 저는 여러분의 질문에 답변하는 AI입니다.” B

이런 데이터를 통해 모델은 좋은 응답이 어떤 것인지 학습하게 됩니다.

STEP 6: 개발자가 해야 할 실제 작업

응답 비교 데이터 구축

  • 각 Prompt에 대해 2개 이상의 응답 생성
  • 사람 또는 모델이 더 좋은 응답에 점수를 매김

보상 모델(RM: Reward Model) 훈련

  • 어떤 응답이 좋은지 판단하는 작은 모델을 별도로 학습시킴

PPO나 DPO 등 RL 알고리즘 적용

  • 보상 모델을 기반으로, 원래 모델에게 좋은 응답을 더 자주 생성하게 학습함

이 과정을 통해 모델은 점점 사용자 취향에 맞는 방향으로 조정됩니다.
정확하고, 친절하며, 때로는 유머러스하게도요!

STEP 7: 실제 Post-training 워크플로우

지금까지 배운 내용을 바탕으로, 실제 현업에서는 아래와 같은 순서로 Post-training을 진행합니다.

SFT 데이터 준비 → Prompt/Response 쌍 정제

SFT 학습 → LLM에게 기본 반응 능력 학습

Preference 데이터 수집 → 응답 쌍 생성 및 랭킹

보상 모델 학습 → “좋은 응답이 무엇인가”를 판단하는 모델 구축

RL 기반 Post-training 수행 → PPO/DPO 등을 활용해 모델 조정

테스트 및 평가 → 사용자 만족도, 정확성 테스트

배포 및 피드백 수집 → 실사용자 피드백 기반으로 개선 반복

STEP 8: Post-training을 잘하면 생기는 변화

  • 단순히 정보만 말하는 모델 → 사용자 의도를 ‘이해하고 반응하는’ 모델로 진화
  • 질문에 어긋나는 답변 줄어듦
  • 응답 스타일이 훨씬 인간 친화적으로 바뀜
  • 비즈니스 현장에서 바로 쓸 수 있는 퀄리티 확보

LLM을 사람답게 만드는 건, 결국 사람의 몫

AI는 스스로 자라는 나무가 아닙니다. 사람이 좋은 토양(데이터)을 주고, 올바른 방향으로 자라도록 도와야 해요.

Post-training은 단순한 기술이 아니라, 인간 중심의 설계 그 자체입니다.

좋은 AI 모델은 우연히 만들어지지 않습니다. 오늘 이 글을 통해 여러분도 LLM 개발의 진짜 핵심을 느끼셨길 바랍니다.


궁금한 점이 있으면 댓글로 질문을 남겨주세요~
다음 편에서는 실제 SFT 데이터셋을 만드는 팁과 RL 방식 중 DPO(Directional Preference Optimization) 를 자세히 소개할게요!

올라마(OLLAMA) 설치 및 사용 가이드 (2025년 최신)

Leave a Comment