Dans une étude révolutionnaire, Apple met en lumière les différences cruciales entre les modèles de raisonnement dans les LLM. Cette recherche dévoile comment optimiser la lisibilité tout en améliorant l’efficacité cognitive, marquant une avancée significative dans l’intelligence artificielle et son impact sur notre interaction avec la technologie.

Les Modèles de Raisonnement : Un Examen Critique
L’étude publiée par Apple, intitulée L’Illusion de la Pensée : Comprendre les Forces et Limites des Modèles de Raisonnement à Travers le Prisme de la Complexité des Problèmes, s’intéresse à la performance des Modèles de Raisonnement de Grande Taille (LRMs) comme Claude 3.7 et DeepSeek-R1. Ces modèles ont été évalués à l’aide d’énigmes contrôlées telles que le Tower of Hanoi et Blocks World, plutôt que sur des benchmarks mathématiques traditionnels souvent biaisés.
Résultats et Observations
Les résultats montrent que les LRMs surpassent leurs homologues LLM sur des tâches de complexité moyenne. Cependant, leur performance s’effondre sur des problèmes plus complexes. De plus, à mesure que la difficulté des tâches augmente, ces modèles semblent diminuer leur capacité de « pensée », malgré un budget de tokens disponible.
Ce constat mérite d’être souligné : ces modèles ne raisonnent pas réellement. Ils étendent simplement des schémas d’inférence des LLM de manière plus élaborée. Cette distinction est cruciale et représente la véritable valeur de l’étude d’Apple. Les auteurs contestent l’utilisation de termes tels que « raisonnement » et « pensée », qui impliquent une inférence symbolique et une planification. En réalité, ce qui se passe, c’est une extension des schémas d’inférence, où le modèle effectue plusieurs passes d’inférence jusqu’à ce qu’il trouve quelque chose de plausible.
Comparaisons avec d’Autres Études
Il n’est pas surprenant que des experts comme Yann LeCun, responsable de l’IA chez Meta, aient comparé les LLM d’aujourd’hui à des « chats domestiques ». Selon lui, l’AGI ne découlera pas des modèles de type Transformer. De plus, Subbarao Kambhampati a publié des recherches montrant que les « chaînes de pensée » ne correspondent pas à la manière dont ces modèles effectuent leurs calculs. Gary Marcus, quant à lui, soutient depuis longtemps que l’apprentissage profond atteint ses limites.
Analyse des Échecs
L’un des points les plus préoccupants de l’étude est que, lorsque la complexité augmente, les modèles cessent littéralement d’essayer. Ils réduisent leur propre « pensée » interne face à des défis croissants, malgré un budget de calcul suffisamment large. Cette situation ne représente pas seulement un échec technique, mais aussi un échec conceptuel.
L’étude d’Apple clarifie que de nombreux LLM échouent non pas parce qu’ils « n’ont pas été suffisamment entraînés » ou « ont besoin de plus de données », mais parce qu’ils manquent fondamentalement d’une manière de représenter et d’exécuter une logique algorithmique étape par étape. Cela ne peut pas être résolu par un simple ajustement de « chaîne de pensée » ou par un affinement par renforcement.
Pour citer l’étude : « Les LRMs échouent à utiliser des algorithmes explicites et raisonnent de manière incohérente à travers les énigmes. » Même lorsqu’on leur fournit un plan de solution, leur performance ne s’améliore pas.
Perceptions du Public et Conséquences
Les résultats de cette étude ne surprendront pas ceux qui sont profondément immergés dans la communauté de recherche en apprentissage machine. Cependant, l’engouement qu’elle suscite souligne une réalité plus intéressante : le grand public pourrait enfin être prêt à comprendre les distinctions que la communauté ML a établies depuis des années, notamment sur ce que ces modèles peuvent et ne peuvent pas faire.
Cette distinction est essentielle. Lorsque l’on qualifie ces systèmes de « pensants », on commence à les traiter comme s’ils pouvaient remplacer des tâches qu’ils ne sont actuellement pas en mesure d’effectuer. C’est à ce moment-là que les hallucinations et les échecs logiques passent d’une simple curiosité à des zones d’ombre dangereuses.
C’est pourquoi la contribution d’Apple est significative. Ce n’est pas seulement parce qu’elle « expose » les LLM, mais parce qu’elle aide à tracer des lignes plus claires autour de ce qu’ils sont et de ce qu’ils ne sont pas. Cette clarté était depuis longtemps attendue.
Qu’est-ce que le papier montre ?
Le papier montre que les modèles commercialisés pour le « raisonnement » échouent toujours sur des problèmes qu’un enfant patient peut maîtriser. Par exemple, dans le Tower of Hanoi, des modèles comme Claude et o3-mini s’effondrent après sept ou huit disques, même lorsqu’on leur donne l’algorithme de solution exact à suivre.
Qu’est-ce qui manque aux modèles LLM ?
Les modèles LLM échouent non pas parce qu’ils « n’ont pas été suffisamment entraînés » ou « ont seulement besoin de plus de données », mais parce qu’ils manquent fondamentalement d’une manière de représenter et d’exécuter une logique algorithmique étape par étape. Cela ne peut pas être résolu par des ajustements ou des techniques de renforcement.
Pourquoi ces résultats sont-ils importants ?
Ces résultats sont importants car ils soulignent que le public pourrait enfin être prêt à comprendre les distinctions que le monde de l’apprentissage automatique fait depuis des années, notamment ce que ces modèles peuvent et ne peuvent pas faire. Cela permet d’éviter de traiter ces systèmes comme s’ils pouvaient remplacer des tâches qu’ils ne peuvent pas accomplir.
Comment cela affecte-t-il la perception du public ?
Lorsque les gens appellent ces systèmes « pensants », ils commencent à les traiter comme s’ils pouvaient remplacer des choses qu’ils ne peuvent actuellement pas faire. Cette confusion peut conduire à des échecs logiques et des hallucinations, passant de simples curiosités à des dangers potentiels.