Google Research présente TurboQuant, un algorithme de quantification vectorielle qui réduit massivement la taille des modèles sans perte de précision. Il s’appuie sur deux techniques complémentaires : PolarQuant, qui convertit les vecteurs en coordonnées polaires pour éliminer l’overhead mémoire des constantes de quantification, et QJL (Quantized Johnson-Lindenstrauss), qui encode le résidu d’erreur sur 1 bit avec zéro overhead. Ces approches ciblent notamment la compression du KV cache et l’accélération de la recherche vectorielle. TurboQuant sera présenté à ICLR 2026.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire