DiffusionGemma : génération de texte 4x plus rapide avec la diffusion (en)

Google publie DiffusionGemma, un modèle expérimental 26B MoE sous licence Apache 2.0 qui génère des blocs de 256 tokens en parallèle plutôt que token par token. Il atteint 1000+ tokens/s sur une H100 et tient dans 18 Go de VRAM grâce à une activation de seulement 3,8B paramètres. L’attention bidirectionnelle ouvre des usages comme le code infilling ou l’édition inline, mais la qualité reste inférieure aux modèles autorégressifs Gemma 4 classiques. Compatible avec vLLM, MLX et Hugging Face Transformers.

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-g...

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire

DiffusionGemma : génération de texte 4x plus rapide avec la diffusion (en)

Commentaires

Prochaines formations

Rejoignez notre Discord