Illustration de l'article : Framework d'évaluation RAG pour LLM 100% local, sans clé API.

J’ai créé un framework d’évaluation RAG 100% local: v1.2 avec LLM-as-Judge et Prometheus 2

Je bosse dessus depuis quelques mois. Le problème : évaluer des pipelines RAG localement sans envoyer ses données chez OpenAI.

RAGAS nécessite des clés API. Giskard est lourd et plante en plein scan (j’ai perdu ma progression trop de fois). Du coup j’ai construit mon propre outil.

L’objectif principal : tout garder sur ta machine. Aucune donnée qui sort de ton réseau, pas d’appels API externes, pas de prise de tête niveau conformité. Si vous bossez avec des données sensibles (santé, finance, juridique) et/ou vous souciez du RGPD, vous ne devriez pas avoir à choisir entre une évaluation correcte et la confidentialité des données.

Ce que ça fait : - Métriques de retrieval (precision, recall, MRR, NDCG) - Évaluation de génération (fidélité, pertinence, détection d’hallucinations) - Génération de jeux de test synthétiques à partir de vos docs - Checkpointing (crash ? reprends où on en était) - 100% local avec Ollama

Nouveauté v1.2 — LLM-as-Judge : Quelqu’un sur r/LocalLLaMA a fait remarquer que les modèles 7B classiques ne sont pas de bons juges. Point valide. J’ai donc intégré Prometheus 2 — un modèle 7B fine-tuné spécifiquement pour les tâches d’évaluation. Pas parfait, mais bien meilleur qu’un jugement zero-shot avec un modèle généraliste. (comme quoi les feddbacks, ça aide^^).

Tourne sur 16GB de RAM avec la quantization Q5 (modèle ~5GB). Environ 20-30s par évaluation sur mon M2.

Limitations : - Toujours plus lent que les APIs cloud (c’est le compromis du local) - Prometheus 2 est conservateur dans ses scores (tendance à donner 3/5 plutôt que 5/5) - L’évaluation du raisonnement multi-hop est limitée (sur la roadmap)

PyPI : pip install ragnarok-ai

J’ai construit ça parce que j’en avais besoin, j’espère que d’autres le trouveront utile aussi.

J’ai besoin de user feedbacks pour avancer Merci.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire