Découvrez la Technique Oubliée d’Apple pour Générer des Images à Couper le Souffle!

Dans un monde en constante évolution technologique, Apple réveille une méthode d’IA oubliée pour générer des images fascinantes. Cette technique, qui mêle art et innovation, souligne l’engagement de l’entreprise envers la créativité. Avec des avancées impressionnantes, Apple Research redéfinit notre compréhension de l’intelligence artificielle.

Normalizing Flows : Qu’est-ce que c’est ?

Les Normalizing Flows (NFs) représentent un modèle d’intelligence artificielle qui transforme mathématiquement des données réelles, comme des images, en bruit structuré, puis inverse ce processus pour générer de nouveaux échantillons. La principale force de ces modèles réside dans leur capacité à calculer la probabilité exacte de chaque image générée, un atout que les modèles de diffusion ne possèdent pas. Cela les rend particulièrement adaptés aux tâches où la compréhension de la probabilité d’un résultat est cruciale.

Malgré leur potentiel, les modèles basés sur les flux n’ont pas eu beaucoup de visibilité récemment, principalement en raison de la qualité des images qu’ils produisaient. Les premiers modèles de flux généraient souvent des images floues, manquant de détails et de diversité comparés aux systèmes de diffusion ou basés sur des transformateurs.

Étude #1 : TarFlow

Dans l’article intitulé Normalizing Flows are Capable Generative Models, Apple présente un nouveau modèle nommé TarFlow, abréviation de Transformer AutoRegressive Flow. TarFlow modernise les anciens modèles de flux en remplaçant les couches fabriquées à la main par des blocs de transformateur. Ce modèle fractionne les images en petits morceaux et génère des blocs, chaque bloc étant prédit en fonction des blocs précédents. Ce processus est appelé autoregressif et s’apparente à la méthode utilisée par OpenAI pour la génération d’images.

Image: Apple
Images générées par les modèles TarFlow avec différentes résolutions.

La différence clé réside dans le fait qu’OpenAI génère des tokens discrets, traitant les images comme de longues séquences de symboles, tandis que TarFlow génère directement des valeurs de pixels, évitant ainsi la perte de qualité souvent liée à la compression en un vocabulaire fixe de tokens. Toutefois, des limitations subsistaient, notamment en matière de mise à l’échelle pour des images de haute résolution, ce qui amène à la deuxième étude.

Étude #2 : STARFlow

Dans le document intitulé STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis, Apple étend le modèle TarFlow en introduisant STARFlow (Scalable Transformer AutoRegressive Flow), avec des améliorations significatives. Le changement majeur réside dans le fait que STARFlow ne génère plus d’images directement dans l’espace pixel. Au lieu de cela, il travaille sur une version compressée de l’image et transfère ensuite tout à un décodeur qui remonte les détails à pleine résolution lors de la dernière étape.

Image: Apple
Exemples aléatoires de STARFlow sur ImageNet.

Cette transition vers l’espace latent permet à STARFlow de ne pas avoir à prédire des millions de pixels directement. Il peut d’abord se concentrer sur la structure globale de l’image, laissant les détails fins au décodeur. De plus, le modèle a été repensé pour intégrer des prompts textuels. STARFlow peut se connecter à des modèles de langage existants, comme le modèle de langage léger Gemma de Google, ce qui pourrait théoriquement permettre un traitement sur appareil, améliorant ainsi la compréhension des prompts lorsque l’utilisateur demande à l’IA de générer une image.

Comparaison entre STARFlow et le générateur d’images GPT-4o d’OpenAI

Alors qu’Apple revisite les flux, OpenAI a également récemment évolué au-delà des modèles de diffusion avec son modèle GPT-4o. Mais leur approche est fondamentalement différente. GPT-4o traite les images comme des séquences de tokens discrets, à l’instar des mots dans une phrase. Lorsqu’on demande à ChatGPT de générer une image, le modèle prédit un token d’image à la fois, construisant l’image petit à petit. Cette méthode confère à OpenAI une flexibilité énorme : le même modèle peut générer du texte, des images et de l’audio dans un flux de tokens unifié.

Cependant, cette génération token par token peut s’avérer lente, surtout pour les images de grande taille ou haute résolution, et extrêmement coûteuse sur le plan computationnel. À l’inverse, comme GPT-4o fonctionne entièrement dans le cloud, OpenAI n’est pas aussi contraint par des problèmes de latence ou de consommation d’énergie.

En résumé, Apple et OpenAI avancent vers des solutions au-delà des modèles de diffusion, mais Apple semble orienter ses efforts vers des dispositifs mobiles, alors qu’OpenAI s’adresse davantage à ses centres de données.

Nous utilisons des liens d’affiliation générant des revenus.

Qu’est-ce que les Normalizing Flows ?

Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données réelles (comme des images) en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. Ils peuvent calculer la probabilité exacte de chaque image qu’ils génèrent, ce qui les rend particulièrement attrayants pour des tâches où comprendre la probabilité d’un résultat est crucial.

Quel est le modèle TarFlow ?

Le modèle TarFlow, introduit par Apple, remplace les anciennes couches artisanales utilisées dans les modèles de flux précédents par des blocs Transformer. Il génère des images en petites sections, chaque section étant prédite en fonction des sections précédentes. Cela permet d’éviter la perte de qualité souvent associée à la compression des images en un vocabulaire fixe de tokens.

Comment fonctionne le modèle STARFlow ?

Le modèle STARFlow ne génère plus des images directement dans l’espace pixel, mais travaille sur une version compressée de l’image avant de la transmettre à un décodeur qui restaure la résolution finale. Cela permet au modèle de se concentrer sur la structure globale de l’image, tout en laissant les détails fins au décodeur.

Comment STARFlow se compare-t-il au générateur d’images d’OpenAI ?

Alors qu’Apple repense les flux, OpenAI a également évolué au-delà de la diffusion avec son modèle GPT-4o, qui traite les images comme des séquences de tokens discrets. Cela donne à OpenAI une flexibilité énorme, mais la génération token par token peut être lente et coûteuse sur le plan computationnel. En revanche, Apple privilégie un modèle plus adapté aux appareils portables.

Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use