Une étude d’Apple révèle que les AirPods pourraient servir de moniteurs cardiaques grâce à l’IA. Cette innovation promet de transformer notre manière de surveiller la santé, alliant technologie auditive et suivi biomédical. Les implications pour la santé publique et le bien-être personnel sont immenses.

L’équipe de recherche d’Apple a récemment publié une étude intéressante qui explore si les modèles d’IA peuvent estimer le rythme cardiaque à partir d’enregistrements de stéthoscopes, même s’ils n’ont pas été spécifiquement entraînés à cet effet. La réponse courte est : oui. Et c’est une grande nouvelle. Voici pourquoi.
En résumé, l’équipe a pris six modèles de base populaires, formés sur des données audio ou de la parole, et a testé comment leurs représentations audio internes pouvaient être utilisées pour estimer le rythme cardiaque à partir d’enregistrements de sons cardiaques, ou phonocardiogrammes.

Étonnamment, bien que ces modèles n’aient pas été conçus pour des données de santé, les résultats étaient étonnamment solides. La plupart des modèles ont montré des performances équivalentes à celles des méthodes anciennes qui s’appuient sur des caractéristiques audio élaborées manuellement, utilisées depuis longtemps dans les modèles d’apprentissage automatique traditionnels.
Le point le plus fascinant ? Le modèle interne d’Apple, une version de CLAP (Contrastive Language-Audio Pretraining) entraînée sur 3 millions d’échantillons audio, a en fait surpassé la référence et a affiché la meilleure performance globale lors des comparaisons entre modèles.
Comment s’est déroulé le test ?
Les modèles ont été évalués à l’aide d’un ensemble de données publiquement disponible, contenant plus de 20 heures de sons cardiaques réels provenant d’hôpitaux, annotés par des experts, ce qui est essentiel pour une bonne recherche et des performances en IA.
Pour entraîner les modèles, Apple a découpé les enregistrements en courts extraits de 5 secondes, avançant d’une seconde à la fois. Cela a totalisé environ 23 000 extraits de sons cardiaques, sur lesquels Apple a ensuite entraîné un réseau de neurones pour classer le rythme cardiaque en valeurs de battements par minute.

Fait intéressant, certaines conclusions vont à l’encontre des hypothèses classiques sur l’IA : les modèles plus grands ne sont pas toujours meilleurs. Pour aller un peu plus loin, les couches plus profondes de ces modèles ont souvent encodé moins d’informations cardiorespiratoires utiles, probablement parce qu’elles étaient optimisées pour le langage. Les représentations de couches moins profondes ou intermédiaires ont montré de meilleures performances.
C’est l’une des principales conclusions de l’étude. Apple sait maintenant où chercher à l’intérieur de ces modèles et quelles couches utiliser pour extraire les signaux de santé les plus pertinents. Cela ouvre la voie à l’intégration de ce type d’analyse dans ses appareils.
Points essentiels à retenir
L’un des points clés de l’étude est que la combinaison du traitement du signal traditionnel avec l’IA de nouvelle génération conduit à des estimations de rythme cardiaque plus fiables. Cela signifie que, dans les cas où une approche a eu des difficultés, l’autre est souvent venue combler les lacunes. Ces deux méthodes captent différentes parties du signal.

Les chercheurs prévoient de continuer à affiner les modèles pour des applications de santé, de créer des versions plus légères capables de fonctionner sur des appareils à faible consommation d’énergie, et d’explorer d’autres sons corporels qui pourraient être pertinents. Dans leurs propres mots :
« À l’avenir, nous prévoyons d’explorer la combinaison des caractéristiques acoustiques avec les représentations FM, en utilisant la concaténation des caractéristiques avant le modèle en aval ou par des méthodes de fusion tardive au sein du modèle, pour améliorer la performance et examiner si de telles méthodes sont capables de capturer des informations complémentaires et d’être plus robustes face aux variabilités individuelles ; d’explorer le fine-tuning des FM aux domaines cibles pour réduire le décalage de domaine et voir si une telle adaptation se traduit par une performance améliorée, atténue mieux les défis d’estimation du rythme cardiaque et capture des caractéristiques pathologiques complexes ; d’évaluer leur applicabilité à d’autres tâches en aval et paramètres physiologiques, y compris les conditions pathologiques ; d’augmenter et d’adapter plus de données cliniquement significatives ; de les comparer avec d’autres modèles de base bioacoustiques, tels que HeAR; et d’explorer des stratégies de simplification des modèles, telles que l’élagage, la distillation et la conception d’encodeurs légers, pour permettre des solutions déployables avec un coût computationnel réduit tout en maintenant la performance. »
Cette étude ne fait évidemment aucune revendication clinique ni promesse de produit. Cependant, le potentiel est évident quant à la manière dont Apple pourrait intégrer ces modèles dans ses iPhones, Apple Watches, et surtout les AirPods, qui s’appuient sur des micros intra-auriculaires pour l’annulation active du bruit. Si vous avez déjà entendu votre propre cœur battre dans vos oreilles en portant des AirPods, vous savez de quoi je parle.
Pour en savoir plus, vous pouvez consulter le document complet sur arXiv.
Nous utilisons des liens d’affiliation générant des revenus.
Comment les modèles ont-ils été évalués ?
Les modèles ont été évalués à l’aide d’un ensemble de données publiquement disponible contenant plus de 20 heures de véritables sons cardiaques hospitaliers, annotés par des experts.
Quels sont les résultats clés de l’étude ?
Les résultats montrent que la combinaison du traitement des signaux traditionnels avec l’IA de nouvelle génération conduit à des estimations de fréquence cardiaque plus fiables.
Quel modèle a obtenu les meilleures performances ?
Le modèle interne d’Apple, une version de CLAP, a surpassé les autres modèles et a montré les meilleures performances globales.
Quelles sont les perspectives futures de cette recherche ?
Les chercheurs prévoient de continuer à affiner les modèles pour des applications de santé et d’explorer d’autres sons corporels pertinents.