Une analyse du benchmark SWE-CI qui évalue la capacité des LLMs à produire du code maintenable sur le long terme, au-delà des tests unitaires. Les benchmarks classiques mesurent la production ponctuelle de code, mais pas sa qualité évolutive sur des dizaines d’itérations successives. Un constat éclairant sur la différence entre écrire du code qui fonctionne et écrire du code qui tient dans la durée.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire