Netflix se concentre sur l’optimisation des recommandations pour accroître la satisfaction à long terme des membres plutôt que les métriques à court terme. Ils emploient un modèle de bandit contextuel pour traiter les recommandations comme des problèmes avec récompenses immédiates ou différées, basées sur les interactions des utilisateurs. L’objectif est d’améliorer les modèles de recommandation en définissant des fonctions de récompense qui reflètent mieux la satisfaction à long terme, plutôt que des récompenses directes comme la rétention.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire