안녕하세요, 리키입니다. 오늘은 구글 딥마인드에서 새로 나온 모델인 제마 포 12B(Gemma 4 12B)에 대해 이야기해 보려고 합니다. 이 모델은 노트북에서 바로 사용할 수 있는 고성능의 멀티모달 지능을 목표로 개발되었더군요.
제마 포 12B는 모바일 환경에서의 효율성과 고급 추론 능력을 결합하여, 강력한 기능을 적은 메모리 공간 안에 담아냈습니다. 특히 이 모델은 처음으로 네이티브 오디오 입력을 지원한다는 점이 주목할 만합니다. 개발자 커뮤니티 덕분에 이미 1억 5천만 건 이상의 다운로드를 기록하며 많은 분들이 사용하고 계시죠.
새로운 아키텍처와 효율성
이 모델이 특별한 이유는 바로 ‘통합된, 인코더 없는(encoder-free) 멀티모달 모델’이라는 새로운 구조를 채택했다는 점입니다. 기존의 멀티모달 모델들은 이미지나 오디오를 언어 모델에 전달하기 전에 별도의 인코더를 거쳤는데, 이는 지연 시간과 메모리 사용량을 늘리는 단점이 있었습니다. 제마 포 12B는 이러한 비효율성을 없애고 시각 정보와 오디오 입력을 언어 모델의 핵심 부분에 직접 통합했습니다.
시각 정보의 경우, 기존의 비전 인코더 대신 단순한 행렬 곱셈으로 처리하는 경량 임베딩 모듈을 사용합니다. 오디오 처리 역시 오디오 인코더를 완전히 제거하고 원시 오디오 신호를 텍스트 토큰과 동일한 차원 공간으로 투영하여 처리하더군요. 이렇게 통합된 구조 덕분에 제마 포 12B는 기존의 큰 모델들만큼의 성능을 내면서도 훨씬 적은 메모리만으로 작동할 수 있습니다.
결과적으로 제마 포 12B는 16GB의 VRAM이나 통합 메모리만으로 일반 노트북에서 로컬로 구동이 가능합니다. 이는 강력한 멀티모달 및 에이전트 경험을 기기 자체에서 바로 실행할 수 있게 해줍니다. 또한, 이 모델은 26B 규모의 모델에 근접한 추론 성능을 보여주면서도 메모리 사용량은 절반 이하로 줄여낸 것이죠.
이러한 통합된 기능과 효율성은 개발자들이 속도나 추론 능력을 희생하지 않으면서도 일상적인 하드웨어에서 고급 멀티모달 기능을 구현할 수 있게 해준다고 생각합니다. 여러분도 이 새로운 모델을 통해 다양한 작업을 시도해 보시길 바랍니다.

참고 원문: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
