Un modèle de raisonnement , également appelé modèle de langage de raisonnement ( RLM ) ou modèle de raisonnement étendu ( LRM ), est un type de modèle de langage étendu (LLM) spécifiquement entraîné à résoudre des tâches complexes nécessitant de multiples étapes de raisonnement logique . Ces modèles présentent des performances supérieures aux LLM standards pour les tâches de logique, de mathématiques et de programmation. Ils sont capables de revenir sur les étapes de raisonnement précédentes et d'utiliser des calculs supplémentaires lors de l'inférence afin d' améliorer leurs performances , complétant ainsi les approches d'adaptation traditionnelles basées sur la taille des données d'entraînement, les paramètres du modèle et la puissance de calcul.
OpenAI a introduit cette terminologie en septembre 2024 lors du lancement de la série o1 , décrivant ces modèles comme conçus pour « passer plus de temps à réfléchir » avant de répondre. L'entreprise a présenté o1 comme une refonte de la nomenclature des modèles, ciblant les tâches complexes en sciences, en programmation et en mathématiques, et a comparé ses performances à celles de GPT-4o sur des plateformes de test telles que AIME et Codeforces . Des articles indépendants publiés la même semaine ont résumé le lancement et souligné l'affirmation d'OpenAI selon laquelle o1 automatise le raisonnement par enchaînement de pensées pour obtenir des gains significatifs aux examens difficiles.En fonctionnement, les modèles de raisonnement génèrent des chaînes internes d'étapes intermédiaires, puis sélectionnent et affinent une réponse finale. OpenAI a indiqué que la précision de o1 s'améliore à mesure que le modèle bénéficie d' un apprentissage par renforcement plus poussé pendant l'entraînement et d'une puissance de calcul accrue lors de l'inférence. L'entreprise a initialement choisi de masquer les chaînes brutes et de renvoyer un résumé généré par le modèle, expliquant avoir « décidé de ne pas afficher » les raisonnements sous-jacents afin que les chercheurs puissent les suivre sans exposer de contenu non cohérent aux utilisateurs finaux. Les déploiements commerciaux documentent des « jetons de raisonnement » distincts qui mesurent le travail de réflexion sous-jacent et un paramètre de « contrôle de l'effort de raisonnement » qui ajuste la puissance de calcul utilisée par le modèle. Ces caractéristiques rendent les modèles plus lents que les systèmes de messagerie instantanée classiques, tout en leur permettant d'obtenir de meilleures performances sur des problèmes complexes.
Histoire
La trajectoire de recherche vers les modèles de raisonnement a combiné les progrès en matière de supervision , d'incitation et d'inférence de type recherche .
Les premiers travaux d'alignement sur l'apprentissage par renforcement à partir de retours humains ont montré que les modèles peuvent être affinés pour suivre des instructions grâce à des retours humains et des récompenses basées sur les préférences. En 2022, les chercheurs de Google, Jason Wei et Denny Zhou, ont montré que l'incitation à la chaîne de pensée « améliore significativement la capacité » des grands modèles à effectuer des tâches de raisonnement complexes.
Un résultat connexe a démontré que la simple instruction « Réfléchissons étape par étape » peut susciter un raisonnement sans exemple préalable. Des travaux ultérieurs ont introduit le décodage par autocohérence, qui « améliore les performances » du raisonnement en chaîne en échantillonnant diverses solutions possibles et en choisissant la solution consensuelle, ainsi que des méthodes assistées par des outils, telles que ReAct (contraction de Reason et Act), qui incitent les modèles à « générer à la fois des traces de raisonnement » et des actions. La recherche a ensuite généralisé le raisonnement en chaîne à la recherche parmi plusieurs plans candidats. Le cadre Tree-of-Thoughts, développé par l'informaticien Shunyu Yao de Princeton , propose que les modèles « prennent des décisions de manière délibérée » en explorant et en revenant sur leurs pas dans un arbre de pensées intermédiaires.
La percée annoncée par OpenAI porte sur la supervision des processus de raisonnement plutôt que sur la simple vérification des résultats. Dans leur article « Let's Verify Step by Step », Lightman et al. démontrent que la récompense de chaque étape correcte « surpasse significativement la supervision des résultats » sur des problèmes mathématiques complexes et améliore l'interprétabilité en alignant le raisonnement sur le jugement humain. L'annonce d'OpenAI concernant o1 réunit ces éléments grâce à un algorithme d'apprentissage par renforcement à grande échelle qui entraîne le modèle à affiner son propre raisonnement. Elle indique également que la précision augmente avec la puissance de calcul d'entraînement et le temps consacré à l'inférence.
Ensemble, ces développements définissent le cœur des modèles de raisonnement. Ils utilisent des signaux de supervision qui évaluent la qualité des étapes intermédiaires, exploitent l'exploration au moment de l'inférence, comme la recherche par consensus ou arborescente , et offrent des mécanismes de contrôle pour la quantité de calcul interne allouée à la réflexion. La famille o1 d'OpenAI a rendu cette approche accessible à grande échelle en septembre 2024 et a popularisé le terme « modèle de raisonnement » pour les LLM qui réfléchissent délibérément avant de répondre.
Le développement de modèles de raisonnement illustre la « leçon amère » de Richard S. Sutton : la mise à l’échelle des ressources de calcul surpasse généralement les méthodes basées sur des connaissances conçues par l’humain. Ce principe a été démontré par des chercheurs du Generative AI Research Lab (GAIR), qui ont initialement tenté de reproduire les capacités d’o1 à l’aide de méthodes sophistiquées, notamment la recherche arborescente et l’apprentissage par renforcement, fin 2024. Leurs résultats, publiés dans la série « o1 Replication Journey », ont révélé que la distillation des connaissances , une technique relativement simple qui entraîne un modèle plus petit à imiter les sorties d’o1, a produit des performances étonnamment élevées. Ce résultat a illustré comment les approches de mise à l’échelle directe peuvent, parfois, surpasser des solutions d’ingénierie plus complexes.
Inconvénients
Les modèles de raisonnement nécessitent des ressources de calcul nettement supérieures lors de l'inférence par rapport aux modèles non raisonnants. Une étude menée sur le benchmark de l' American Invitational Mathematics Examination (AIME) a révélé que les modèles de raisonnement étaient de 10 à 74 fois plus coûteux à exécuter que leurs homologues non raisonnants . Ce temps d'inférence plus long est dû aux résultats de raisonnement détaillés et étape par étape générés par ces modèles, qui sont généralement beaucoup plus longs que les réponses des grands modèles de langage classiques fournissant des réponses directes sans exposer leur démarche.
Un chercheur a avancé au début de 2025 que ces modèles pourraient être confrontés à des problèmes de déni de service supplémentaires potentiels avec des « attaques de suranalyse ».
Sorties
2024
En septembre 2024, OpenAI a publié o1-preview , un modèle de langage de grande taille doté de capacités de raisonnement améliorées. La version complète, o1 , a été publiée en décembre 2024. OpenAI a initialement partagé des résultats préliminaires sur son modèle successeur, o3 , en décembre 2024, le modèle o3 complet devenant disponible en 2025.
Alibaba a publié des versions de raisonnement de ses grands modèles de langage Qwen en novembre 2024. En décembre 2024, la société a présenté QvQ-72B-Preview, un modèle de raisonnement visuel expérimental.
En décembre 2024, Google a introduit Deep Research dans Gemini , une fonctionnalité conçue pour mener des tâches de recherche en plusieurs étapes.
Le 16 décembre 2024, des chercheurs ont démontré qu'en augmentant la puissance de calcul lors des tests, un modèle Llama 3B relativement petit pouvait surpasser un modèle Llama 70B beaucoup plus grand sur des tâches de raisonnement complexes. Cette expérience suggère que des stratégies d'inférence améliorées peuvent permettre d'exploiter les capacités de raisonnement même dans des modèles plus petits.
2025
En janvier 2025, DeepSeek a publié R1 , un modèle de raisonnement dont les performances étaient comparables à celles de o1 d'OpenAI, pour un coût de calcul nettement inférieur. Cette publication a démontré l'efficacité de l'optimisation de politique relative de groupe (GRPO), une technique d'apprentissage par renforcement utilisée pour entraîner le modèle.
Le 25 janvier 2025, DeepSeek a amélioré R1 avec des capacités de recherche Web, permettant au modèle de récupérer des informations sur Internet tout en effectuant des tâches de raisonnement.
Les recherches menées durant cette période ont confirmé l'efficacité de la distillation des connaissances pour la création de modèles de raisonnement. Le modèle s1-32B a obtenu d'excellentes performances grâce aux méthodes de contrainte budgétaire et de mise à l'échelle, renforçant ainsi les résultats selon lesquels des approches d'entraînement plus simples peuvent être très efficaces pour les capacités de raisonnement.
Le 2 février 2025, OpenAI a lancé Deep Research , une fonctionnalité basée sur son modèle o3 qui permet aux utilisateurs de mener des recherches approfondies. Le système génère des rapports détaillés en collectant et en synthétisant automatiquement des informations provenant de multiples sources web.
OpenAI a qualifié GPT-4.5 de son « dernier modèle non-chaîne de pensée », et a implémenté avec GPT-5 un modèle de routeur qui sélectionne un modèle en fonction de la difficulté de la tâche.
2026
En janvier 2026, Moonshot AI a publié Kimi K2.5, un modèle MoE open source d'un billion de paramètres, dont 32 milliards sont actifs. Kimi K2.6 a suivi en avril 2026. Ces deux modèles Kimi utilisent un système d'« essaim d'agents » qui décompose dynamiquement les tâches en sous-agents pour le raisonnement et l'exécution, permettant ainsi une résolution de problèmes multi-étapes plus évolutive qu'une simple chaîne de raisonnement séquentielle . Cependant, malgré des paramètres identiques, les deux modèles Kimi diffèrent au niveau de leur essaim d'agents : K2.5 utilise 100 sous-agents, tandis que K2.6 en utilise 300, ce qui améliore la coordination des tâches de ce dernier
Entraînement
Les modèles de raisonnement suivent le pré-entraînement à grande échelle classique utilisé pour les modèles de langage de pointe, puis divergent lors du post-entraînement et de l'optimisation. OpenAI indique que o1 est entraîné avec un algorithme d'apprentissage par renforcement à grande échelle qui enseigne au modèle à utiliser et à affiner un raisonnement avant de répondre. L'entreprise met l'accent sur deux leviers interdépendants : un apprentissage par renforcement plus poussé pendant l'entraînement et un temps de réflexion plus long lors de l'inférence. Elle documente des progrès constants à mesure que chacun de ces leviers augmente. OpenAI précise également avoir décidé de ne pas afficher les chaînes de raisonnement brutes aux utilisateurs finaux et de leur fournir à la place un résumé généré par le modèle. Ce choix de produit est lié à des impératifs de sécurité et de concurrence.
Un élément central est la supervision du processus , qui valorise les étapes intermédiaires plutôt que la seule réponse finale. L'étude d'OpenAI a introduit un modèle de récompense de processus entraîné sur des étiquettes au niveau de chaque étape et a constaté que la supervision du processus surpasse significativement la supervision basée uniquement sur le résultat pour les problèmes mathématiques complexes. Le projet a également publié l'ensemble de données de rétroaction au niveau de chaque étape PRM800K et a démontré que les récompenses au niveau du processus améliorent l'interprétabilité car les humains peuvent vérifier chaque étape. Ces résultats ont fourni une méthode pratique pour superviser les chaînes de raisonnement, qui a ensuite été mise en œuvre à grande échelle pour l'entraînement en production.
Cette formation diffère sensiblement des modèles de pointe traditionnels qui ne ciblent pas le raisonnement. Les systèmes standards sont pré-entraînés sur des corpus à l'échelle d'Internet avec un objectif de prédiction du prochain jeton, puis alignés par l'ajustement des instructions et l'optimisation des préférences. La méthode InstructGPT canonique utilise d'abord un ajustement fin supervisé sur des démonstrations humaines, puis entraîne un modèle de récompense à partir de préférences par paires, et enfin optimise la politique par apprentissage par renforcement, généralement PPO avec une pénalité KL . Des variantes telles que l'optimisation directe des préférences suppriment l'étape explicite d'apprentissage par renforcement et optimisent le modèle directement sur les données de préférence, mais l'objectif de la supervision reste le résultat final jugé par des évaluateurs plutôt que la qualité des étapes internes. Les rapports techniques de GPT-4 résument ce pipeline conventionnel comme un pré-entraînement du prochain jeton suivi d' un post-entraînement de type RLHF pour façonner le comportement.
À l'inverse, les modèles de raisonnement sont optimisés pour produire, analyser et corriger des chaînes d'étapes complexes lors de leur entraînement. OpenAI indique que l'apprentissage par renforcement est appliqué à la chaîne elle-même, ce qui permet au modèle de reconnaître les erreurs, de décomposer les problèmes en étapes plus simples et de changer de stratégie lorsque l'approche actuelle échoue. OpenAI précise également que le modèle masque les chaînes lors de l'inférence et renvoie une réponse qui synthétise les idées pertinentes issues de la trace interne. Ces choix de conception reflètent l'objectif d'entraînement du modèle et son mode de surveillance.
Zelikman et al. ont introduit STaR (Self-Taught Reasoner), qui explore l'apprentissage par amorçage de raisonnements en générant et en filtrant itérativement des chaînes, puis en affinant ces traces. Ils ont rapporté des gains par rapport à un ajustement fin basé uniquement sur les résultats. Une variante de cette méthode fournissait des mécanismes supplémentaires pour produire des signaux d'entraînement qui rendent compte du raisonnement intermédiaire, et pas seulement des réponses finales.
DeepSeek a rapporté que les systèmes R1 et R1-Zero, entraînés par apprentissage par renforcement pur, produisaient de longues chaînes, une auto-vérification et une réflexion, suggérant que des récompenses explicites au niveau de la chaîne peuvent induire des comportements de raisonnement général. Ces résultats indiquent que le post-entraînement axé sur la qualité de la chaîne constitue désormais un régime distinct, différent de l'alignement basé uniquement sur les résultats.
Réglage fin supervisé
Étant donné le coût élevé de la collecte de traces écrites par des humains, les chercheurs utilisent l’échantillonnage par rejet et l’ajustement fin (RFT) pour constituer automatiquement des ensembles de données. Cette méthode génère plusieurs traces de raisonnement pour chaque invite, puis filtre les traces comportant des réponses finales incorrectes à l’aide d’un vérificateur.
Apprentissage par renforcement
Points de référence
Les modèles de raisonnement obtiennent généralement des scores plus élevés que les modèles sans raisonnement sur de nombreux tests de référence, en particulier sur les tâches nécessitant un raisonnement en plusieurs étapes.
Par exemple, lors de l' American Invitational Mathematics Examination (AIME), une compétition de mathématiques exigeante, les modèles non basés sur le raisonnement résolvaient généralement moins de 30 % des problèmes. En revanche, de nombreux modèles de raisonnement de première génération atteignaient des taux de réussite compris entre 50 % et 80 %. o3-mini-high, publié en janvier 2025, a atteint une précision supérieure à 80 %.
Certains benchmarks excluent les modèles de raisonnement en raison de leurs temps de réponse plus longs et de leurs coûts d'inférence plus élevés, notamment les benchmarks pour la détection en ligne d'événements complexes dans les systèmes cyberphysiques , l'évaluation générale du calcul en temps d'inférence, les tâches d'ingénierie Verilog et les évaluations de la sécurité des réseaux.