OpenAI a anoncé l’arrivée d’un nouveau générateur d’images sur ChatGPT il y a quelques mois. Sobrement baptisé « Images in ChatGPT », il promet de produire des images de meilleure qualité en s’appuyant sur les requêtes fournies par les utilisateurs. Comme l’indique OpenAI sur son site, les images sont « non seulement belles, mais aussi utiles ».
Découvrez : notre test de Manus, l’IA chinoise qui veut devenir votre super assistant personnel
Pour concevoir des images, l’IA ne s’appuie plus sur Dall-E, le générateur d’images d’OpenAI, mais sur GPT-4o, un modèle d’IA annoncé l’an dernier, et ses innombrables capacités multimodales. Nous avions longuement testé le modèle à sa sortie en mai de l’année derniére, et les résultats étaient déjà bluffants, notamment en ce qui concerne la compréhension des images. On s’est désormais penché sur le générateur d’images intégré à ChatGPT. Pendant plusieurs jours, on a poussé le modéle dans ses retranchements.
À lire aussi : On a testé Le Chat de Mistral pendant 1 semaine – l’IA française peut-elle faire oublier ChatGPT ?
Un générateur vraiment intelligent
Avec GPT-4o, ChatGPT est désormais capable de produire des visuels léchés, précis et bien construits. On a pu réaliser une pléthore de contenus de qualité avec le chatbot. Dès les premières images, on s’est rendu compte que les images étaient bien plus réussies que celles qu’on a l’habitude de produire avec Dall-E, qui commençait à accumuler son retard sur la concurrence. ChatGPT est surtout beaucoup plus précis dans son travail. Il n’y a plus d’éléments indistincts, ce qu’on trouvait presque systématiquement sur les images générées par Dall-E.


L’IA générative excelle dorénavant dans la compréhension des styles visuels. On s’est amusé à produire des visuels inspirés de tableaux de la Renaissance, de bandes dessinées, d’affiches de film ou encore du pop art. ChatGPT jouit maintenant d’une solide culture artistique.


De même, ChatGPT se débrouille beaucoup mieux dans la conception d’une image en se basant sur des photos fournies par nos soins. On a pu mettre au point des versions cartoonesques de nos proches et de nos collègues. L’IA excelle dans la compréhension des photos. Toutes les personnes présentes sur les clichés sont facilement reconnaissables sur les productions générées par l’intelligence artificielle. Là encore, ChatGPT fait preuve d’une précision impressionnante. Quand on demande à l’IA de concevoir des portraits basés sur des photos, les rendus visent presque toujours dans le mille.
Notez que toutes les créations générées par ChatGPT sont répertoriées dans la bibliothéque. La galerie d’images est accessible à partir de la barre latérale, en dessous de la section Explorer les GPT, et juste au-dessus de la division Projets réservée aux abonnés ChatGPT Plus. Cette section enregistre toutes vos créations, de maniére à ce que vous vous y retrouviez facilement, sans devoir consulter toutes vos conversations.

Un vrai Photoshop de l’IA
Plus globalement, ChatGPT comprend nettement mieux les différentes requêtes et consignes relatives à la création d’images. De facto, il est beaucoup plus facile d’éditer des images en conversant simplement avec le chatbot. On avait déjà essayé de retoucher des contenus en discutant avec l’IA auparavant, et c’était tout simplement catastrophique. ChatGPT n’arrivait pas à prendre en compte nos consignes les plus précises, et repartait presque à chaque fois de zéro. Dorénavant, on a plutôt l’impression d’avoir affaire à un véritable Photoshop animé par l’IA. Comme l’explique OpenAI, « vous pouvez affiner les images grâce à une conversation naturelle ».

L’IA hérite aussi d’une meilleure mémorisation des consignes. En clair, ChatGPT n’oubliera pas d’inclure un élément évoqué plus haut dans la conversation, ce qui arrivait très régulièrement avec le générateur qui s’appuyait sur Dall-E. Comme l’explique OpenAI, ChatGPT s’est amélioré en matière de « binding », c’est-à-dire la capacité d’une IA générative à comprendre et respecter des instructions complexes et multiples dans une même image.

Avec Dall-E, il arrivait souvent que ChatGPT ne parvienne pas à prendre en compte plusieurs consignes en simultané. Si on demandait un chat rouge avec un chapeau vert, on se retrouvait souvent avec un chat rouge… et sans chapeau. On pouvait aussi se retrouver avec un chat vert, et un chapeau vert. Bref, vous avez compris le principe.

Le modèle avait une habilité limitée à comprendre et à lier précisément les descriptions textuelles à des éléments visuels spécifiques. Avec GPT-4o, les consignes qui partent dans tous les sens ne posent plus trop de problèmes. Pour transformer la photo ci-dessous, on a communiqué une longue liste d’informations à l’IA, concernant le look, l’angle, les couleurs ou encore la typographie. ChatGPT n’a rien oublié, et ne s’est pas emmêlé les pinceaux.

Pour faciliter la vie de ses utilisateurs, OpenAI a ajouté une fonctionnalité intitulée Styles dans l’interface de ChatGPT. L’outil propose de choisir un style visuel par défaut pour l’image que vous êtes en train de concevoir. Il n’y a plus besoin de réfléchir à la maniére dont vous allez décrire ce style avec des mots. ChatGPT va vous afficher automatiquement une requete taillée sur mesure. Vous n’aurez plus qu’à décrire le contenu de l’image. Parmi les styles, on trouve Cyberpunk, Dessin animé, Portrait théâtralisé, Livre de coloriage, Shooting, Dessin animé rétro, Glamour années 80, Art nouveau, ou Synthwave.
Un problème récalcitrant avec le texte
En théorie, ChatGPT doit être désormais capable d’apposer du texte dépourvu de fautes sur les visuels créés par ses soins. OpenAI a d’ailleurs partagé plusieurs exemples de textes collés sur des images. Jusqu’ici, ChatGPT, comme la plupart des IA, galérait beaucoup à incorporer du texte sur une image en respectant l’orthographe. La plupart du temps, on se retrouvait avec des phrases et des mots complètement incompréhensibles. Des symboles illisibles, des lettres ou des chiffres se glissaient au milieu des mots.

Avec GPT-4o, il y a du mieux. Sur demande, ChatGPT peut ajouter un titre sur vos contenus, ou une courte légende, sur nos images. Sur les textes les plus réduits, l’évolution est nettement perceptible. On a demandé à ChatGPT d’ajouter une foule de titres sur nos créations. Nous n’avons pas trouvé la moindre faute ou la moindre irrégularité au cours de nos expérimentations. ChatGPT réalise notamment d’excellents schémas explicatifs.



Malheureusement, l’IA n’est pas encore infaillible. OpenAI est bien parvenu à mettre au point des petites bandes dessinées avec l’aide de l’IA. Sur les planches utilisées comme exemples par la start-up, il n’y a pas de faute d’orthographe, de syntaxe ou d’éléments incompréhensibles. Nous n’avons pas réussi les mêmes prouesses, du moins en Français. Sur la bande dessinée conçue par ChatGPT sur base de nos requêtes, tous les textes héritent des mêmes erreurs. La planche est illisible. C’est du charabia.

On s’est demandé si ChatGPT ne rencontrait pas des difficultés avec les langues étrangères. Le corpus des données des modèles GPT est en effet essentiellement composé de textes en anglais. De facto, ChatGPT est plus à l’aise dans la langue de Shakespeare. Nous avons donc ordonné à l’IA de réaliser une planche de BD avec du texte anglais pour en avoir le cœur du net. Comme on le soupçonnait, le rendu est presque dénué de fautes. L’IA ne coince que sur un mot ou deux, de manière un peu aléatoire. L’essentiel de la production est lisible et compréhensible.
Pour des résultats corrects en Français, il a fallu se contenter de planches de BD plus courtes, avec moins de texte. En fait, les résultats sont vraiment aléatoires. Il arrive parfois que l’IA parvienne à aligner du texte sans retomber dans ses travers sur plusieurs productions. La plupart du temps, on s’est retrouvé avec du texte impossible à décrypter à un endroit ou à un autre.

Un générateur un peu plus lent
Enfin, on a remarqué que la génération d’images avec GPT-4o était sensiblement plus lente qu’avec Dall-E. Dans la plupart de nos expérimentations, nous avons été obligés d’attendre plusieurs dizaines de secondes pour obtenir un contenu. Pour certaines requêtes plus complexes, le temps d’attente dépasse la minute. Ce n’est pas la fin du monde, mais ça rend tout le processus plus contraignant qu’auparavant. Mais, en général, les résultats valent largement le temps d’attente.
Par ailleurs, on a rencontré une pléthore de bugs. Bien souvent, les conversations qui traînent en longueur rencontrent de gros problèmes d’affichage, ou la génération d’images se met à dysfonctionner et n’aboutit pas. On sent que les serveurs d’OpenAI sont en surcharge. Quand on multiplie les créations, ChatGPT nous informe qu’il semble que « l’outil de génération d’images soit temporairement indisponible ».

« Autant de liberté créative que possible »
Par ailleurs, OpenAI indique avoir fait preuve d’un peu plus de souplesse dans la conception de son générateur. La start-up autorise désormais dans une certaine mesure la génération « d’images de personnes réelles », comme des célébrités. Il est théoriquement possible de concevoir des contenus avec des personnes connues, mais OpenAI continue d’imposer « des restrictions renforcées concernant les types d’images pouvant être générées, avec des mesures de protection particulièrement strictes en ce qui concerne la nudité et la violence ».
Dans les faits, nous ne sommes pas parvenus à produire une seule image mettant en scène une célébrité. Tout porte à croire que les limitations restent encore particulièrement strictes. On est loin de la souplesse décomplexée de Grok, le chatbot d’Elon Musk.
De même, de nombreux internautes affirment être parvenus à produire des images copiant des animés produits par des studios célèbres, comme Ghibli. Interrogé par l’AFP, OpenAI explique empêcher « la création de contenu inspiré spécifiquement d’artistes vivants, mais nous le permettons pour le style d’un studio, qui est plus large », afin « d’offrir aux utilisateurs autant de liberté créative que possible ». Malgré nos efforts, et la réutilisation des mêmes requêtes, nous n’avons d’abord eu droit qu’à des refus de la part de ChatGPT. Le bot indiquait que notre demande enfreint sa « politique de contenu » :
« Il semble que le style demandé, combiné au mème spécifique, pose un problème. Vous pouvez essayer de décrire une scène similaire ou un concept qui respecte les directives, et je pourrai tenter de créer une image correspondante ».
Quelques heures plus tard, nous avons réussi à pousser ChatGPT à imiter le style d’animés connus, comme Les Simpsons. Malheureusement, ce n’était que de courte durée. Le lendemain, ChatGPT refusait fermement de reprendre le style des personnages de Matt Groening. On a l’impression qu’OpenAI limite temporairement certaines requêtes face à l’afflux de personnes qui se servent du générateur. Avec le temps, il nous semble que les restrictions du générateur ont fini par se stabiliser.



Notre avis sur le générateur d’images de ChatGPT : un vrai bond en avant
Ce nouveau générateur est accessible aux tous les utilisateurs de ChatGPT, y compris ceux qui se contentent d’un compte gratuit. Il n’y a pas besoin de souscrire à un abonnement payant, comme ChatGPT Plus ou ChatGPT Pro, pour tester la génération d’images avancée.
A notre humble avis, la génération d’images assistée par ChatGPT vient de faire un nouveau bond en avant. Gageons qu’avec la sortie imminente de GPT-5, l’intelligence artificielle générative aille encore plus loin et corrige les quelques défauts récalcitrants de son générateur.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.