NVIDIA 에이전틱 추론 위한 Mamba-Transformer 공개

안녕하세요, 리키입니다. 오늘은 엔비디아에서 공개한 ‘네모트론 3 슈퍼(Nemotron 3 Super)’에 대해서 이야기해 보려고 합니다. 이 모델은 에이전틱 추론, 즉 스스로 생각하고 문제를 해결하는 AI 시스템의 효율성과 정확도를 동시에 높이기 위해 개발되었더군요. 총 파라미터 1200억 개에 1200억 개의 활성 파라미터를 가진 이 모델은 복잡한 멀티 에이전트 애플리케이션에 아주 적합한 성능을 보여주고 있습니다.

우리가 에이전트 시스템을 사용할 때 겪는 어려움이 있습니다. 멀티 에이전트 시스템은 일반적인 대화보다 훨씬 많은 토큰을 생성해야 하기 때문에, 대화 기록이나 추론 단계를 계속 보내야 합니다. 이 과정에서 정보가 쌓이면서 ‘컨텍스트 폭발’ 현상이 발생하고, 에이전트가 처음 목표에서 멀어지는 ‘골 드리프트’가 생기기 쉽습니다. 게다가 모든 하위 작업에 거대한 추론 모델을 동원해야 하므로 ‘사고 비용’이 너무 많이 들고 느리다는 문제도 있었죠.

이러한 한계를 극복하기 위해 엔비디아는 Nemotron 3 Super를 내놓았습니다. 이 모델은 하이브리드 MoE(Mixture of Experts) 아키텍처를 사용하여 ‘사고 비용’ 문제를 해결했습니다. 또한, 100만 토큰 컨텍스트 윈도를 제공하여 에이전트가 일관성 있고 정확한 추론을 위한 장기 기억을 갖도록 했습니다. 개발자들은 가중치와 데이터셋까지 모두 공개하여 자체 인프라 위에서 모델을 자유롭게 최적화하고 배포할 수 있다는 점도 큰 장점입니다.

Super 모델이 특별한 이유는 단순히 크기만 키운 것이 아니라, 효율성과 정확도를 동시에 잡는 아키텍처 혁신이 담겨 있기 때문입니다. 예를 들어, ‘잠재 MoE(Latent MoE)’를 도입하여 동일한 추론 비용으로 더 많은 전문가를 호출할 수 있게 했고, ‘하이브리드 맘바-트랜스포머 백본’을 통해 메모리와 연산 효율을 크게 높였습니다. 또한, 엔비디아의 Blackwell에 최적화된 ‘네이티브 NVFP4 사전 학습’을 통해 추론 속도를 획기적으로 개선했더군요.

결론적으로, Nemotron 3 Super는 자율 에이전트처럼 장시간 가동되고 복잡한 추론이 필요한 환경에서 특히 강점을 보입니다. PinchBench와 같은 벤치마크에서 동급 오픈 모델 중 최고 수준의 성능을 기록하며, 복잡한 환경에서 높은 정확도와 효율성을 동시에 달성할 수 있는 새로운 기준을 제시하고 있습니다. 직접 사용해 보시려면 공식 튜토리얼을 참고하시면 좋겠습니다.

참고 원문: https://developer.nvidia.com/ko-kr/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/

Related Posts

댓글 달기 댓글 취소