Google publie DiffusionGemma, un modèle expérimental 26B MoE sous licence Apache 2.0 qui génère des blocs de 256 tokens en parallèle plutôt que token par token. Il atteint 1000+ tokens/s sur une H100 et tient dans 18 Go de VRAM grâce à une activation de seulement 3,8B paramètres. L’attention bidirectionnelle ouvre des usages comme le code infilling ou l’édition inline, mais la qualité reste inférieure aux modèles autorégressifs Gemma 4 classiques. Compatible avec vLLM, MLX et Hugging Face Transformers.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire