Grand modèle de langage (LLM)

Un modèle statistique de langage entraîné sur de vastes corpus de texte, utilisant typiquement une architecture transformer, employé pour des tâches de génération et de compréhension.

Un grand modèle de langage (LLM) est un réseau de neurones (généralement basé sur l’architecture transformer) entraîné à prédire le prochain token dans une séquence. À grande échelle, cet objectif produit des systèmes capables de suivre des instructions, résumer du texte, traduire et assister en programmation : dans les limites de la fiabilité factuelle et de la sécurité.

Les LLM ne sont pas des « bases de données de faits » ; ils généralisent à partir de motifs dans les données d’entraînement. Pour l’utilisation autonome d’outils et la planification, voir agents IA.