En octobre 2023, Google a lancé Gemini 2.5 Flash pour les développeurs, intégrant des améliorations majeures dans l’application Gemini. Ces avancées promettent d’optimiser l’expérience utilisateur et de dynamiser les capacités d’intelligence artificielle, redéfinissant ainsi l’interaction numérique. Préparez-vous à découvrir un nouvel horizon technologique !
Lancement de Gemini 2.5 Flash par Google
Google a annoncé le déploiement de Gemini 2.5 Flash pour les développeurs en phase de prévisualisation. Ce modèle introduit un concept de « budget de réflexion » qui permet aux développeurs de contrôler le niveau de raisonnement en fonction de l’invite et du cas d’utilisation.
Capacités de Raisonnement
Les modèles de la famille Gemini 2.5 possèdent des capacités de raisonnement qui permettent de « réfléchir avant de répondre », offrant ainsi une performance améliorée et une précision accrue. Ce processus s’avère particulièrement utile pour des requêtes nécessitant un raisonnement en plusieurs étapes, comme les problèmes mathématiques ou l’analyse de questions de recherche.
Au lieu de générer immédiatement une réponse, le modèle effectue un processus de « réflexion » pour mieux comprendre la requête, décomposer des tâches complexes et planifier sa réponse.
Pour les Développeurs
Les modèles Flash de Gemini sont reconnus pour leur rapidité et leur coût réduit. Avec la version 2.5 Flash, Google introduit des capacités de raisonnement permettant aux développeurs de « définir des budgets de réflexion pour contrôler le coût par rapport à la qualité ».
Spécifications clés de Gemini 2.5 Flash
Voici les spécifications clés pour Gemini 2.5 Flash en prévisualisation :
- Limites de taux : 1000 RPM / 10,000 RPD (niveau payant), 10 RPM / 500 RPD (niveau gratuit)
- Date limite de connaissance : janvier 2025
- Modalités d’entrée : texte, images, vidéos, audio
- Modalités de sortie : texte
- Fenêtre de contexte : 1 million de tokens
- Longueur maximale de sortie : 64K tokens
Concrètement, les développeurs contrôlent « le nombre de tokens qu’un modèle peut générer pendant la réflexion », allant de 0 à 24,576 tokens. Un curseur est disponible dans Google AI Studio et Vertex AI, ainsi qu’un paramètre d’API. Les graphiques ci-dessous montrent comment la qualité du raisonnement s’améliore à mesure que le budget augmente.
Si le budget de réflexion est fixé à zéro, ce nouveau modèle correspondra au coût et à la latence de 2.0 Flash.
Si aucun budget n’est spécifié, Gemini 2.5 Flash « décide automatiquement combien réfléchir en fonction de la complexité perçue de la tâche ». Google propose des exemples de raisonnement minimal, moyen et élevé :
Raisonnement Minimal
- « Merci » en espagnol
- Combien de provinces le Canada a-t-il ?
Raisonnement Moyen
- Vous lancez deux dés. Quelle est la probabilité qu’ils s’additionnent à 7 ?
- Mon gymnase a des heures de jeu de basketball entre 9h et 15h les lundi, mercredi et vendredi, et entre 14h et 20h le mardi et le samedi. Si je travaille de 9h à 18h cinq jours par semaine et que je veux jouer 5 heures de basketball en semaine, créez un emploi du temps pour que tout fonctionne.
Raisonnement Élevé

Dans le contexte des agents, un autre exemple serait que des résumés rapides nécessiteraient un faible budget de réflexion, tandis qu’une analyse détaillée en exigerait un plus élevé.
Gemini 2.5 Flash est disponible en prévisualisation pour les développeurs dans Google AI Studio et Vertex AI. Google a annoncé qu’il « continuera à améliorer Gemini 2.5 Flash, avec de nouvelles fonctionnalités à venir, avant de le rendre disponible pour une utilisation en production complète. »
Application Gemini
La version 2.5 Flash (expérimentale) sera également intégrée à l’application Gemini, offrant la capacité d’ajuster automatiquement le niveau de raisonnement en fonction de la complexité de l’invite. Les utilisateurs finaux ne disposent d’aucun ajustement manuel dans l’application.
Au lancement, les diverses fonctionnalités de l’application Gemini, telles que les applications/extensions, le téléchargement de fichiers, etc., sont prises en charge, tandis que ce modèle remplacera 2.0 Flash Thinking (expérimental), qui a été mis à jour pour la dernière fois en mars.

Pour plus d’informations sur les avancées technologiques de Google et les modèles d’intelligence artificielle, vous pouvez consulter Microsoft Research.
Qu’est-ce que Gemini 2.5 Flash ?
Gemini 2.5 Flash est une version expérimentale des modèles Gemini de Google qui introduit des capacités de raisonnement. Ces modèles permettent aux développeurs de contrôler le budget de réflexion et d’améliorer la performance et la précision des réponses générées.
Comment les développeurs peuvent-ils contrôler le budget de réflexion ?
Les développeurs peuvent ajuster le nombre de tokens qu’un modèle peut générer tout en réfléchissant, avec un budget variant de 0 à 24 576 tokens. Cela peut se faire via un curseur dans Google AI Studio ou Vertex AI, ou en utilisant un paramètre API.
Quelles sont les limites de taux pour Gemini 2.5 Flash ?
Pour le niveau payant, les limites de taux sont de 1000 RPM (requêtes par minute) et 10 000 RPD (requêtes par jour). Pour le niveau gratuit, les limites sont de 10 RPM et 500 RPD.
Quels types de modalités d’entrée et de sortie sont pris en charge ?
Gemini 2.5 Flash prend en charge plusieurs modalités d’entrée, y compris le texte, les images, la vidéo et l’audio, tandis que la sortie est générée uniquement sous forme de texte.