Ollama permet de télécharger et d’exécuter des modèles de langage en local, en exposant une API compatible OpenAI. Couplé à Open WebUI, il offre une interface web complète avec historique des conversations et gestion multi-modèles. L’article détaille les prérequis matériels (CPU, GPU, NPU), la notion de quantification et l’impact de la taille des modèles sur les ressources nécessaires.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire