Pareto est la couche de vérification pour l'apprentissage par renforcement basé sur l'expertise du monde réel.
Nous transformons le jugement d'expert non déterministe en signaux de récompense durables.
En mesurant la frontière des capacités d'un modèle et en calibrant les tâches là où il apprendra le plus, nous rendons l'expertise humaine spécialisée entraînable.