Les grands modèles de langage (LLM) sont des systèmes d'intelligence artificielle (IA) avancés spécifiquement conçus pour comprendre, interpréter et générer du texte de manière humaine à partir d'une large gamme d'entrées. En s'appuyant sur des techniques de pointe en apprentissage automatique (ML), des ensembles de données d'entraînement massifs et des architectures de transformateurs, ces modèles peuvent accomplir des tâches allant de la traduction, la synthèse, la réponse à des questions et la conversation à des applications plus nuancées telles que l'analyse des sentiments, la classification de texte et la génération de contenu créatif. Les LLM sont souvent intégrés dans des applications et systèmes existants pour automatiser des tâches nécessitant beaucoup de langage, telles que l'alimentation d'interfaces conversationnelles et le soutien d'analyses basées sur le raisonnement.
Les LLM se distinguent des petits modèles de langage (SLM) principalement par leur échelle, notamment en termes de nombre de paramètres et de volume de données d'entraînement utilisées. Les LLM ont généralement des tailles de paramètres allant de 10 milliards à des milliers de milliards de paramètres, tandis que les SLM ont quelques millions à plus de 10 milliards de paramètres. Cette catégorie diffère également de la catégorie des logiciels de chatbots IA, qui se concentre sur des plateformes autonomes permettant aux utilisateurs d'interagir et de s'engager avec de grands modèles de langage, et de la catégorie des logiciels de médias synthétiques, qui consiste en des outils pour les utilisateurs professionnels afin de créer des médias générés par l'IA. Ces solutions LLM, au contraire, sont conçues pour être plus polyvalentes et fondamentales et peuvent être intégrées dans une large gamme d'applications, pas seulement limitées aux chatbots ou aux médias synthétiques.
Les LLM sont généralement soit open source, soit propriétaires/fermés. Les modèles open source sont librement téléchargeables et modifiables, avec les poids du modèle et les codes d'entraînement disponibles publiquement. Les LLM fermés n'ont pas de source et de poids de modèle téléchargeables publiquement, et ne sont disponibles que via API ou points d'accès. De plus, certains LLM ont des capacités de raisonnement, ce qui aide à décomposer des problèmes complexes, appliquer la logique et suivre des processus de pensée pour élaborer une solution. Les LLM sans capacités de raisonnement, également appelés modèles de base, se concentrent sur les prédictions de prochain jeton pour prédire des motifs. Les capacités de raisonnement peuvent être plus lentes et plus délibérées, tandis que les LLM sans raisonnement sont plus rapides.
Pour être inclus dans la catégorie des Grands Modèles de Langage (LLM), un produit doit :
Offrir un modèle de langage à grande échelle capable de comprendre et de générer du texte de manière humaine à partir d'une variété d'entrées, disponible pour un usage commercial
Fournir un modèle de langage ayant une taille de paramètre supérieure à 10 milliards, par rapport aux petits modèles de langage de moins de 10 milliards de paramètres
Fournir des API robustes et sécurisées ou des outils d'intégration, permettant aux entreprises de divers secteurs d'incorporer facilement le modèle dans leurs systèmes ou processus existants
Avoir des mécanismes complets en place pour aborder les problèmes potentiels liés à la confidentialité des données, à l'utilisation éthique et à la modération de contenu, garantissant la confiance des utilisateurs et la conformité réglementaire
Offrir un support client fiable et une documentation exhaustive, ainsi que des mises à jour et améliorations constantes, aidant ainsi les utilisateurs à intégrer et utiliser efficacement le modèle tout en assurant sa pertinence continue et son adaptabilité aux exigences changeantes