Gemma를 TPU로 훈련시켜 생각하게 만들다

안녕하세요, 리키입니다. 오늘은 우리가 요즘 많이 이야기하는 대규모 언어 모델(LLM)들이 어떻게 ‘생각’하는 능력을 갖추게 되었는지, 그리고 그 과정에서 커뮤니티가 어떤 놀라운 성과를 냈는지에 대해 이야기해 보려고 합니다.

최근 제미나이(Gemini) 같은 최첨단 모델들은 질문에 답하기 전에 추론 과정, 즉 ‘사고의 흔적(Chain-of-Thought)’을 보여주는 능력을 갖추고 있습니다. 하지만 이런 추론 능력을 훈련하는 방법은 아직 많은 부분이 공개되어 있지 않더군요. 수학이나 코딩 같은 단순한 작업은 튜토리얼이 많지만, 일반적인 추론 능력을 훈련하기 위한 접근하기 쉽고 재현 가능한 방법은 여전히 부족한 상황이었습니다.

이러한 필요성에 착안하여, 저희는 커뮤니티를 대상으로 ‘모델이 자신의 과정을 보여주도록 훈련하기’라는 주제로 해커톤을 진행했습니다. 저희는 튜닉스(Tunix)와 티피유(TPU) 같은 컴퓨팅 자원을 활용하여, 일반적인 추론 능력이 부족한 기본 모델들(예를 들어 제마(Gemma) 모델)을 실제 추론 모델로 변환하는 도전을 던졌습니다.

그 결과는 정말 놀라웠습니다. 11,000명이 넘는 참가자와 300개가 넘는 고품질 제출물이 나왔는데, 이는 아주 제한적인 컴퓨팅 자원만으로도 커뮤니티가 충분히 추론 훈련을 할 수 있다는 것을 증명해 주었습니다. 이 과정에서 우승한 팀들은 단순히 정답을 맞히는 것을 넘어, 모델이 논리적인 단계를 보여주도록 훈련하는 정교한 기술을 선보였습니다.

특히 1등을 차지한 ‘G-RaR(Rubric-Based Reinforcement Learning)’ 방법은 주목할 만합니다. 이 방법은 지도 학습(SFT)과 강화 학습(GRPO)을 결합하고, ‘LLM이 심사위원 역할을 하도록’ 하는 보상 시스템을 사용했습니다. 이 방식은 모델이 중간 추론 단계에 태그를 붙여 자신의 사고 과정을 명시하도록 훈련함으로써, 단순히 정답만 맞히는 것이 아니라 논리적인 과정을 스스로 개선하게 만드는 핵심이 되더군요.

참고 원문: https://developers.googleblog.com/how-the-community-trained-gemma-to-think-with-tunix-and-tpus/

Related Posts

댓글 달기 댓글 취소