Article de reference

Modèle de langage

Un modèle de langage est un modèle informatique qui prédit des séquences en langage naturel . Les modèles de langage sont utiles pour diverses tâches, notamment la reconnaissanc...

modèle informatique qui prédit des séquences en langage naturel . Les modèles de langage sont utiles pour diverses tâches, notamment la reconnaissance vocale , la traduction automatique , la génération de langage naturel (génération de texte plus proche du langage humain), la reconnaissance optique de caractères , l'optimisation d'itinéraires , la reconnaissance de l'écriture manuscrite , l'induction grammaticale , la recherche d'informations et la réponse aux catastrophes .

Les grands modèles de langage (LLM), actuellement leur forme la plus avancée (en 2026), reposent principalement sur des transformeurs entraînés sur de vastes ensembles de données (souvent à partir de textes extraits d' Internet ). Ils ont supplanté les modèles basés sur les réseaux de neurones récurrents , qui avaient eux-mêmes supplanté les modèles purement statistiques , tels que le modèle de langage n -grammes .

Noam Chomsky a réalisé un travail de pionnier sur les modèles de langage dans les années 1950 en développant une théorie des grammaires formelles .

En 1980, les approches statistiques ont été explorées et se sont révélées plus utiles que les grammaires formelles basées sur des règles pour de nombreuses applications. Les représentations discrètes, comme les modèles de langage n- grammes de mots , avec des probabilités pour des combinaisons discrètes de mots, ont permis des avancées significatives.

Dans les années 2000, les représentations continues des mots, telles que les plongements lexicaux , ont commencé à remplacer les représentations discrètes. Typiquement, la représentation est un vecteur à valeurs réelles qui encode la signification d'un mot de telle sorte que les mots proches dans l'espace vectoriel ont une signification similaire et que les relations courantes entre les mots, telles que le pluriel ou le genre, sont préservées.

Modèles statistiques purs

En 1980, le premier modèle de langage statistique significatif a été proposé, et au cours de la décennie, IBM a réalisé des expériences de style « Shannon », dans lesquelles des sources potentielles d'amélioration de la modélisation du langage ont été identifiées en observant et en analysant les performances de sujets humains dans la prédiction ou la correction de texte.

Modèles basés sur les n -grammes de mots

modèle de langage n - gramme est un modèle statistique qui calcule la probabilité du mot suivant dans une séquence à partir d'une fenêtre de taille fixe de mots précédents. Si un seul mot précédent est considéré, il s'agit d'un modèle bigramme ; si deux mots, d'un modèle trigramme ; si n − 1 mots, d'un modèle n -gramme.

Des jetons spéciaux sont introduits pour indiquer le début et la fin d'une phrase . Afin d'éviter qu'une probabilité nulle ne soit attribuée aux mots inconnus, la probabilité de chaque mot connu est légèrement réduite pour leur faire une place dans un corpus donné . Pour ce faire, diverses méthodes de lissage sont utilisées, allant du simple lissage « ajouter un » (attribuer un score de 1 aux n- grammes inconnus , comme information a priori non pertinente ) à des techniques plus sophistiquées, telles que l'actualisation de Good-Turing ou les modèles de repli .

Les modèles de n- grammes de mots ont été largement remplacés par des modèles basés sur des réseaux neuronaux récurrents , qui ont à leur tour été remplacés par des modèles basés sur Transformer , souvent appelés grands modèles de langage .

Exponentiel

Les modèles de langage à entropie maximale encodent la relation entre un mot et l' historique des n -grammes à l'aide de fonctions de caractéristiques. L' équation est

où est la fonction de partition , est le vecteur de paramètres et est la fonction de caractéristique. Dans le cas le plus simple, la fonction de caractéristique indique simplement la présence d'un certain n -gramme. Il est utile d'utiliser une distribution a priori sur ou une forme de régularisation .

Le modèle log-bilinéaire est un autre exemple de modèle de langage exponentiel.

Modèle Skip-gram

1-skip-2-grammes pour le texte « la pluie en Espagne tombe principalement sur la plaine »

Le modèle de langage skip-gram est une tentative de surmonter le problème de la rareté des données auquel était confronté le modèle précédent (c'est-à-dire le modèle de langage n- gram de mots). Les mots représentés dans un vecteur d'embedding ne sont plus nécessairement consécutifs, mais peuvent laisser des lacunes qui sont ignorées (d'où le nom « skip-gram »).

Formellement, un k -skip- n -gramme est une sous-séquence de longueur n où les composants apparaissent à une distance d'au plus k les uns des autres.

Par exemple, dans le texte d'entrée :

En Espagne, la pluie tombe principalement sur la plaine.

l'ensemble des 1-skip-2-grammes comprend tous les bigrammes (2-grammes), et en outre les sous-séquences

la pluie en Espagne , tombe principalement en Espagne , tombe sur , principalement le , et sur la plaine .

Dans le modèle skip-gram, les relations sémantiques entre les mots sont représentées par des combinaisons linéaires , capturant une forme de compositionnalité . Par exemple, dans certains de ces modèles, si v est la fonction qui associe à un mot w sa représentation vectorielle à n dimensions, alors

où ≈ est précisé en stipulant que son membre de droite doit être le plus proche voisin de la valeur du membre de gauche.

Modèles neuronaux

Réseau neuronal récurrent

Les modèles de langage basés sur les réseaux de neurones récurrents (également appelés modèles de langage à espace continu ) produisent des représentations continues, ou plongements, des mots . Ces plongements à espace continu contribuent à atténuer le problème de la malédiction de la dimensionnalité , qui résulte de l'augmentation exponentielle du nombre de séquences de mots possibles avec la taille du vocabulaire, engendrant ainsi un problème de rareté des données. Les réseaux de neurones contournent ce problème en représentant les mots comme des combinaisons non linéaires de poids au sein d'un réseau de neurones.

Modèles de langage de grande taille

modèle de langage étendu (LLM) est un réseau neuronal entraîné sur une vaste quantité de texte pour des tâches de traitement automatique du langage naturel , notamment la génération de langage . Les LLM peuvent généralement générer, résumer, traduire et analyser du texte dans de nombreux contextes, et constituent une technologie fondamentale pour les chatbots modernes . Des données d'entraînement biaisées ou inexactes peuvent rendre les résultats d'un LLM moins fiables.

Les LLM sont généralement basés sur une architecture de type Transformer . Les Transformers pré-entraînés génératifs (GPT) sont un type de LLM pré-entraîné à prédire le mot suivant. Les GPT sont ensuite souvent affinés pour suivre des instructions et se comporter comme des assistants.

Les évaluations comparatives des LLM tentent de mesurer le raisonnement du modèle , l'exactitude factuelle, l'alignement et la sécurité .

Bien qu’ils égalent parfois les performances humaines, il n’est pas certain qu’il s’agisse de modèles cognitifs plausibles . Du moins pour les réseaux neuronaux récurrents, il a été démontré qu’ils apprennent parfois des schémas que les humains n’apprennent pas, mais qu’ils échouent à apprendre des schémas que les humains apprennent généralement.

Évaluation et points de référence

L'évaluation de la qualité des modèles de langage repose principalement sur la comparaison avec des corpus de référence créés par des humains à partir de tâches typiques orientées langage. D'autres tests de qualité, moins répandus, examinent les caractéristiques intrinsèques d'un modèle de langage ou comparent deux modèles. Les modèles de langage étant généralement conçus pour être dynamiques et apprendre à partir des données qu'ils observent, certains modèles proposés étudient la vitesse d'apprentissage, par exemple en analysant les courbes d'apprentissage.

Divers ensembles de données ont été développés pour l'évaluation des systèmes de traitement du langage. Ceux-ci comprennent :

  • Compréhension du langage multitâche massif (MMLU)
  • Corpus d’acceptabilité linguistique
  • benchmark GLUE
  • Corpus de paraphrases de Microsoft Research
  • Inférence en langage naturel multi-genres
  • Question Inférence en langage naturel
  • Paires de questions Quora
  • Reconnaissance de l'implication textuelle
  • Référence de similarité textuelle sémantique
  • Test de réponse aux questions SQuAD
  • Stanford Sentiment Treebank
  • Winograd NLI
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs