TurboQuant : compression extrême des vecteurs pour LLMs et moteurs de recherche (en)

Google Research présente TurboQuant, un algorithme de quantification vectorielle qui réduit massivement la taille des modèles sans perte de précision. Il s’appuie sur deux techniques complémentaires : PolarQuant, qui convertit les vecteurs en coordonnées polaires pour éliminer l’overhead mémoire des constantes de quantification, et QJL (Quantized Johnson-Lindenstrauss), qui encode le résidu d’erreur sur 1 bit avec zéro overhead. Ces approches ciblent notamment la compression du KV cache et l’accélération de la recherche vectorielle. TurboQuant sera présenté à ICLR 2026.

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme...

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire

TurboQuant : compression extrême des vecteurs pour LLMs et moteurs de recherche (en)

Commentaires

Prochaines formations

Rejoignez notre Discord