Apple teste si ses assistants IA peuvent anticiper les conséquences de l’utilisation des applications et optimiser la lisibilité. Des recherches montrent que ces technologies peuvent transformer l’expérience utilisateur, rendant les interactions plus intuitives. Grâce à des algorithmes avancés, Apple vise à redéfinir l’avenir des interactions numériques.
Tests d’Apple sur la capacité des assistants IA à anticiper les conséquences de l’utilisation des applications
Une Étude Révélatrice
Dans un contexte où les agents d’IA s’approchent de plus en plus de l’exécution d’actions réelles pour le compte des utilisateurs (comme envoyer des messages, effectuer des achats ou modifier des paramètres de compte), une étude récemment coécrite par Apple s’intéresse à la compréhension des conséquences de ces actions par ces systèmes. Présentée lors de la Conférence ACM sur les Interfaces Utilisateurs Intelligentes en Italie, cette étude, intitulée "From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts", propose un cadre détaillé pour appréhender ce qui se passe lorsque des agents d’IA interagissent avec une interface utilisateur mobile.
Anticipation des Conséquences
L’intérêt principal de cette étude réside dans le fait qu’elle n’explore pas seulement si les agents peuvent appuyer sur le bon bouton, mais également s’ils sont capables d’anticiper les conséquences de leurs actions. De plus, la recherche se concentre sur la question de savoir si ces agents devraient effectivement procéder à ces actions.
Commentaires des Chercheurs
Les chercheurs soulignent que "bien que des travaux antérieurs aient étudié les mécaniques de navigation dans les interfaces utilisateurs par les agents d’IA, les effets de leurs actions autonomes—en particulier ceux qui peuvent être risqués ou irréversibles—demeurent peu explorés. Dans cette recherche, nous examinons les impacts réels et les conséquences des actions sur l’interface mobile effectuées par les agents d’IA."
Classification des Interactions Risquées
La prémisse de l’étude repose sur le fait que la plupart des ensembles de données utilisés pour former les agents d’interface utilisateur se composent d’actions relativement inoffensives, telles que parcourir un fil d’actualité, ouvrir une application ou faire défiler des options. Ainsi, l’étude vise à aller plus loin.
Les participants recrutés pour cette étude ont été invités à utiliser de vraies applications mobiles et à consigner des actions qui les mettraient mal à l’aise si elles étaient déclenchées par une IA sans leur autorisation. Parmi ces actions figurent l’envoi de messages, la modification de mots de passe, l’édition de détails de profil ou la réalisation de transactions financières.
Cadre d’Évaluation
Ces actions ont ensuite été étiquetées à l’aide d’un cadre récemment développé qui prend en compte non seulement l’impact immédiat sur l’interface, mais aussi des facteurs tels que :
-
Intention de l’utilisateur : Quel est l’objectif de l’utilisateur ? S’agit-il d’une action informative, transactionnelle, communicative ou simplement d’une navigation de base ?
-
Impact sur l’interface utilisateur : L’action modifie-t-elle l’apparence de l’interface, ce qu’elle montre ou la destination où elle mène ?
-
Impact sur l’utilisateur : Cela pourrait-il affecter la vie privée, les données, le comportement ou les biens numériques de l’utilisateur ?
-
Récupérabilité : Si quelque chose tourne mal, peut-on facilement revenir en arrière ? Ou pas du tout ?
- Fréquence : S’agit-il d’une action effectuée occasionnellement ou de manière répétée ?
Le résultat est un cadre permettant aux chercheurs d’évaluer si les modèles prennent en compte des considérations telles que : "Cela peut-il être annulé en un clic ?" ou "Cela prévient-il quelqu’un d’autre ?".
Évaluation du Jugement de l’IA
Une fois le jeu de données constitué, l’équipe a testé ce dernier à travers cinq modèles linguistiques avancés, dont GPT-4, Google Gemini, et le propre modèle d’Apple, Ferret-UI, pour évaluer leur capacité à classifier l’impact de chaque action.
Résultats des Tests
Les résultats montrent que Google Gemini a affiché de meilleures performances lors des tests dits "zero-shot" (56 % de précision), qui mesurent la capacité d’une IA à gérer des tâches pour lesquelles elle n’a pas été formée explicitement. Pendant ce temps, la version multimodale de GPT-4 a pris la tête avec 58 % de précision dans l’évaluation de l’impact, lorsqu’elle a été incitée à raisonner étape par étape en utilisant des techniques de réflexion.
Le Point de Vue de 9to5Mac
Au fur et à mesure que les assistants vocaux et les agents deviennent plus compétents dans l’exécution de commandes en langage naturel ("Réserve-moi un vol," "Annule cet abonnement," etc.), le véritable défi en matière de sécurité réside dans la capacité d’un agent à savoir quand demander une confirmation ou même quand ne pas agir du tout.
Bien que cette étude n’apporte pas encore de solution à ce défi, elle propose un cadre mesurable pour évaluer dans quelle mesure les modèles comprennent les enjeux de leurs actions. Alors qu’il existe de nombreuses recherches sur l’alignement, un domaine plus large de la sécurité des IA qui s’intéresse à s’assurer que les agents agissent selon les véritables intentions humaines, les recherches d’Apple ajoutent une nouvelle dimension à cette discussion. Elles remettent en question l’habileté des agents d’IA à anticiper les résultats de leurs actions et la manière dont ils utilisent ces informations avant d’agir.
Références Supplémentaires
Pour approfondir le sujet des assistants IA et de leur impact, consultez des ressources sur le site de l’ACM.
Qu’est-ce qu’un agent AI et comment fonctionne-t-il ?
Un agent AI est un système capable d’effectuer des actions en notre nom, comme envoyer des messages ou effectuer des achats. La recherche examine comment ces agents comprennent les conséquences de leurs actions.
Pourquoi est-il important de comprendre les interactions UI avec les agents AI ?
Comprendre comment les agents AI interagissent avec les interfaces utilisateur (UI) permet d’évaluer les impacts réels de leurs actions et d’identifier les comportements à risque ou irréversibles.
Quels types d’actions sont considérés comme risqués pour les agents AI ?
Les actions risquées incluent l’envoi de messages, la modification de mots de passe ou la réalisation de transactions financières, surtout si elles sont effectuées sans la permission de l’utilisateur.
Comment les chercheurs testent-ils le jugement des agents AI ?
Les chercheurs utilisent des modèles de langage pour évaluer la capacité des agents à classer l’impact de diverses actions, en mesurant leur précision dans des tests sans formation préalable.