Fine-tuning에 필요한 데이터 품질, 파인튜닝에 100개 좋은 데이터 vs 10000개 나쁜 데이터 비교

Fine-tuning

파인튜닝 프로젝트에서 맞닥뜨리는 가장 흔한 실수 데이터 품질 문제로 파인튜닝이 실패하는 경우가 점점 늘어나고 있습니다. 작년만 해도 글로벌 데이터 라벨링 시장이 224억 달러에 달했으며, 2035년까지 834억 달러로 성장할 것으로 예상되는 시점에서 흥미로운 현상입니다. 기업들이 엄청난 규모의 데이터를 수집하고 있지만, 정작 모델 성능 개선으로는 이어지지 않는 경우가 많다는 뜻이거든요. 최근 실무에서 파인튜닝 프로젝트를 진행하면서 깨닫게 된 … Read more

LLM이 제멋대로 답변하는데, JSON으로만 뱉게 하는 방법

LLM답변_JSON

주요 기사 요약 2026년 LLM 통합 개발자들은 Output 포맷 강제의 문제를 지속적으로 마주친다. OpenAI의 최신 연구에서는 LLM이 JSON 형식으로 코드를 반환할 때 Markdown으로 반환하는 것보다 성능이 떨어진다는 것을 발견했다. Google의 Gemini는 response_mime_type 파라미터로 JSON 출력을 강제할 수 있으며, lm-format-enforcer와 outline 같은 오픈소스 도구들은 Grammar 기반 제약을 통해 정확한 형식 준수를 보장한다. 특히 금융, 의료, 데이터 … Read more