Nouvelle étude remet en question la théorie du ‘collapse de raisonnement’ des LLM d’Apple : révélations surprenantes !

Une nouvelle étude remet en question la recherche d’Apple sur l’effondrement du raisonnement de ses modèles de langage (LLM). Les experts soulignent que des biais dans les données et une interprétation erronée pourraient fausser les conclusions. Cette controverse soulève des questions cruciales sur l’avenir de l’intelligence artificielle et l’intégrité des résultats.

Réponse à l’article de recherche d’Apple sur les limites de raisonnement des modèles de langage

L’article récent d’Apple intitulé « L’illusion de la pensée » a suscité de vives réactions en raison de sa conclusion tranchante : même les modèles de raisonnement les plus avancés, appelés modèles de raisonnement large (LRMs), échouent sur des tâches complexes. Toutefois, cette interprétation est contestée par certains experts.

La critique : Moins d’« illusion de pensée », plus d’« illusion d’évaluation »

Alex Lawsen, chercheur chez Open Philanthropy, a publié une réponse détaillée qui remet en question les résultats les plus médiatisés d’Apple. Sa critique, intitulée « L’illusion de l’illusion de la pensée », ne nie pas que les LRMs d’aujourd’hui aient des difficultés avec des énigmes complexes. Cependant, il soutient que l’étude d’Apple confond des contraintes pratiques d’output et des défauts de conception expérimentale avec des échecs de raisonnement fondamentaux.

Les trois principales problématiques soulevées par Lawsen

  1. Les limites de budget de jetons ignorées par Apple :
    Lawsen souligne qu’au moment où Apple prétend que les modèles « s’effondrent » sur les énigmes de la tour de Hanoï avec plus de 8 disques, des modèles comme Claude atteignaient déjà leurs limites de sortie de jetons. Il cite des exemples où les modèles déclarent explicitement : « Le motif continue, mais je vais m’arrêter ici pour économiser des jetons. »

  2. Des énigmes impossibles comptées comme des échecs :
    L’évaluation de la traversée de rivière d’Apple a inclus des instances d’énigmes impossibles (par exemple, plus de 6 paires d’agents avec une capacité de bateau qui ne pouvait pas transporter tout le monde sur la rivière). Lawsen attire l’attention sur le fait que les modèles ont été pénalisés pour avoir reconnu cette impossibilité et pour avoir refusé de les résoudre.

  3. Les scripts d’évaluation ne distinguaient pas les échecs de raisonnement et la troncation de sortie :
    Apple a utilisé des pipelines automatisés qui jugeaient les modèles uniquement sur des listes de mouvements complètes, même lorsque la tâche dépassait la limite de jetons. Lawsen soutient que cette évaluation rigide a faussement classé des sorties partielles ou stratégiques comme des échecs totaux.

Test alternatif : Laisser le modèle écrire du code

Pour étayer son propos, Lawsen a rerun une partie des tests de la tour de Hanoï en utilisant un format différent : demander aux modèles de générer une fonction récursive en Lua qui imprime la solution au lieu de lister tous les mouvements de manière exhaustive.

Le résultat ? Des modèles comme Claude, Gemini et o3 d’OpenAI ont facilement produit des solutions algorithmiquement correctes pour des problèmes de la tour de Hanoï avec 15 disques, bien au-delà de la complexité où Apple avait signalé aucun succès.

Lawsen conclut que lorsque l’on supprime les contraintes artificielles de sortie, les LRMs semblent tout à fait capables de raisonner sur des tâches de haute complexité, du moins en termes de génération d’algorithmes.

Pourquoi ce débat est important

À première vue, cela pourrait sembler être un simple débat académique sur la recherche en intelligence artificielle. Cependant, les enjeux sont bien plus importants. L’article d’Apple a été largement cité comme preuve que les LLMs d’aujourd’hui manquent fondamentalement de capacité de raisonnement évolutive, ce qui, comme je l’ai déjà mentionné, n’était peut-être pas la manière la plus juste de présenter l’étude.

La réfutation de Lawsen suggère que la vérité pourrait être plus nuancée : oui, les LLMs ont du mal avec l’énumération de jetons de longue durée dans le cadre des contraintes de déploiement actuelles, mais leurs moteurs de raisonnement ne sont peut-être pas aussi fragiles que l’article original le suggérait ou que beaucoup de gens l’ont interprété.

Bien entendu, cela ne dédouane pas les LRMs. Même Lawsen reconnaît que la véritable généralisation algorithmiquement demeure un défi, et ses nouvelles tests restent préliminaires. Il propose également des suggestions pour les travaux futurs sur le sujet :

  • Concevoir des évaluations qui distinguent la capacité de raisonnement des contraintes de sortie.
  • Vérifier la solvabilité des énigmes avant d’évaluer la performance des modèles.
  • Utiliser des métriques de complexité qui reflètent la difficulté computationnelle, pas seulement la longueur de la solution.
  • Considérer plusieurs représentations de solutions pour séparer la compréhension algorithmique de l’exécution.

La question n’est pas de savoir si les LRMs peuvent raisonner, mais si nos évaluations peuvent distinguer le raisonnement de la simple saisie.

En d’autres termes, le message principal est clair : avant de déclarer que le raisonnement est mort à l’arrivée, il pourrait être judicieux de vérifier les normes par lesquelles cela est mesuré.

Pour en savoir plus sur les défis actuels des modèles de langage, consultez cet article sur Towards Data Science.

Quelle est la principale critique de la recherche d’Apple sur l’IA ?

La critique principale est que de nombreuses conclusions frappantes d’Apple découlent de biais dans la conception expérimentale plutôt que de limites fondamentales en raisonnement.

Quels sont les principaux problèmes soulevés par Alex Lawsen ?

Les trois principales préoccupations soulevées par Lawsen incluent : l’ignorance des limites de budget de tokens, la comptabilisation de puzzles impossibles comme des échecs, et l’absence de distinction dans les scripts d’évaluation entre échec de raisonnement et troncature des sorties.

Comment Lawsen propose-t-il de tester les modèles d’IA ?

Lawsen suggère de permettre aux modèles de générer du code, par exemple en écrivant une fonction récursive en Lua pour résoudre des problèmes complexes, ce qui a produit des résultats positifs.

Pourquoi ce débat sur l’IA est-il important ?

Ce débat est crucial car l’article d’Apple a été cité comme preuve que les LLM manquent fondamentalement de capacité de raisonnement, ce qui pourrait ne pas être la manière la plus juste de présenter les résultats de l’étude.

Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use