Une analyse du benchmark SWE-CI qui évalue la capacité des LLMs à produire du code maintenable sur le long terme, au-delà des tests unitaires. Les benchmarks classiques mesurent la production ponctuelle de code, mais pas sa qualité évolutive sur des dizaines d’itérations successives. Un constat éclairant sur la différence entre écrire du code qui fonctionne et écrire du code qui tient dans la durée.
Commentaires
Vous devez
vous inscrire
ou
vous connecter
pour poster un commentaire