Découvrez la précision de l’IA de transcription d’Apple, mise à l’épreuve face à Whisper et Parakeet. Dans un monde où la technologie évolue rapidement, cet article examine comment ces systèmes rivalisent en termes de performance et d’efficacité. Plongez dans les résultats surprenants de notre test comparatif.
Précision de la nouvelle IA de transcription d’Apple
Présentation de l’API de transcription d’Apple
Apple a récemment dévoilé sa nouvelle API de transcription, qui suscite un intérêt croissant dans le domaine de la technologie. Lors de tests comparatifs, il s’est avéré que cette API est plus rapide que le modèle Whisper d’OpenAI, mais la question de la précision demeure. Pour évaluer cette efficacité, nous avons effectué des tests en utilisant plusieurs outils de transcription, à savoir les API de transcription d’Apple, Whisper Large V3 Turbo d’OpenAI, et Parakeet v2 de NVIDIA.
Méthodologie de test
Les tests ont été inspirés par les travaux de Prakash Pax, un développeur qui a enregistré quinze échantillons audio en anglais, variant de quinze secondes à deux minutes. Il a évalué ces échantillons à l’aide de trois outils de transcription.
- API de transcription d’Apple
- OpenAI Whisper Large V3 Turbo
- Parakeet v2 d’Eleven Labs
Il a mentionné qu’étant un locuteur non natif de l’anglais, les résultats pourraient varier pour d’autres utilisateurs. Cela a éveillé ma curiosité, et j’ai décidé de comparer les performances d’Apple et d’OpenAI à celles de Parakeet, qui est réputé pour sa rapidité d’exécution.
Outils utilisés pour les tests
Pour mes propres tests, j’ai choisi un épisode récent de 9to5Mac Daily de 7 minutes et 31 secondes. J’ai utilisé MacWhisper pour exécuter Whisper Large V3 Turbo ainsi que Parakeet v2. Pour l’API de transcription d’Apple, j’ai utilisé le projet Yap de Finn Vorhees. Les tests ont été réalisés sur un MacBook Pro M2 Pro avec 16 Go de RAM.
Pour l’analyse des taux d’erreur, j’ai utilisé deux espaces de Hugging Face: Metric: cer et Metric: wer. Ces outils définissent clairement leur méthodologie, ce qui garantit une évaluation cohérente des modèles.
Résultats des tests
Voici les résultats obtenus pour les trois modèles de transcription :
| Modèle | Temps de transcription | Taux d’erreur de caractère (CER) | Taux d’erreur de mot (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 5.8% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.2% | 1.5% |
| API de transcription d’Apple | 9 secondes | 1.9% | 10.3% |
Tests supplémentaires avec d’autres modèles
Pour approfondir l’analyse, j’ai également utilisé ChatGPT, Claude et Gemini pour calculer le CER et le WER. Voici les résultats :
ChatGPT
| Modèle | Temps de transcription | Taux d’erreur de caractère (CER) | Taux d’erreur de mot (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 6.0% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.4% | 1.4% |
| API d’Apple | 9 secondes | 2.1% | 10.2% |
Claude
| Modèle | Temps de transcription | Taux d’erreur de caractère (CER) | Taux d’erreur de mot (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 8.4% | 11.0% |
| Whisper Large V3 Turbo | 40 secondes | 0.1% | 1.0% |
| API d’Apple | 9 secondes | 3.5% | 8.2% |
Gemini
| Modèle | Temps de transcription | Taux d’erreur de caractère (CER) | Taux d’erreur de mot (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 7.6% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.3% | 0.4% |
| API d’Apple | 9 secondes | 3.4% | 5.3% |
Comparaison des performances
Les résultats montrent que Whisper demeure le modèle le plus précis, mais son temps de traitement est significativement plus long, ce qui peut poser problème pour des projets urgents. Parakeet, quant à lui, se distingue par sa rapidité, ce qui le rend idéal pour des applications où la vitesse prime sur la précision.
L’API de transcription d’Apple se situe entre les deux. Elle propose un équilibre satisfaisant avec des temps de transcription rapides tout en maintenant une précision acceptable. Bien qu’elle ne soit pas à la hauteur de Whisper pour des travaux nécessitant une exactitude maximale, sa capacité à fonctionner de manière autonome sans dépendre d’API tierces est un atout précieux pour les développeurs.
Conclusion
L’évaluation des performances des outils de transcription révèle que le choix dépend des besoins spécifiques de chaque utilisateur. Pour une transcriptions exigeant une précision élevée, Whisper est préférable, tandis que pour des tâches rapides, Parakeet est le choix optimal. L’API d’Apple, avec ses améliorations constantes, pourrait devenir une option de premier plan à mesure qu’elle évolue.
Pour des informations plus détaillées sur les technologies de transcription, vous pouvez consulter Hugging Face.
Qu’est-ce que l’API de transcription d’Apple ?
L’API de transcription d’Apple est un nouvel outil qui permet de convertir la parole en texte de manière rapide et efficace, surpassant certains modèles existants comme Whisper d’OpenAI en termes de vitesse.
Comment l’API d’Apple se compare-t-elle à Whisper et Parakeet ?
Bien que Whisper offre une précision supérieure, l’API d’Apple se positionne entre Whisper et Parakeet en termes de vitesse et d’exactitude, la rendant adaptée pour des projets nécessitant un compromis entre rapidité et précision.
Quel est le taux d’erreur de l’API d’Apple ?
Dans les tests, l’API d’Apple a montré un taux d’erreur de caractères de 1,9 % et un taux d’erreur de mots de 10,3 %, ce qui est respectable pour un produit en phase initiale.
Pour qui l’API de transcription d’Apple est-elle idéale ?
Cette API est idéale pour les développeurs et créateurs qui ont besoin d’une solution de transcription rapide, avec une précision adéquate, sans dépendance à des API tierces.