ChatGPT & DALL-E, comparaison et combinaison

18.01.2023
A force de lire les exploits de ces 2 modèles d’IA produits par OpenAI, nous avons tenté d’aller voir de plus près leurs capacités en leur donnant le crayon et le pinceau …
Data / IA

Chaque année, le numérique se surpasse, nous étonne, évolue, se transforme, créée, invente, réinvente … Bref en 2022 nous avons également eu notre lot de nouveautés numériques. Et comme pour beaucoup, celles qui ont retenu mon attention sont les dernières créations d'OpenAI, que ce soit DALL-E 2 pour la création de visuels ou ChatGPT 3 pour la création textuelle. Cet article est autant le leur que le mien !


Etape numéro 1 : "ECRIRE UN ARTICLE SUR LA COMPARAISON ENTRE CHATGPT ET DALL-E"

Après avoir créé mon compte sur OpenAI et laissé au passage quelques informations personnelles, me voici sur ma première tentative de connexion au serveur CHATGPT 3 (puis DALL-E 2). Voici que je me lance sur ma première consigne, quelque peu directive mais que j’espère explicite !


La réponse de CHATGPT

"GPT-3 (Generative Pre-trained Transformer 3) et DALL-E sont deux modèles de traitement du langage développés par OpenAI.


GPT-3 est un modèle de traitement du langage de grande envergure, capable de générer du texte de manière autonome à partir de différentes tâches de langage naturel. Il est capable de répondre à des questions, de traduire du texte, de rédiger des articles et même de créer du code informatique. GPT-3 est entraîné sur un grand corpus de données et utilise une technique de pré-entraînement pour améliorer ses performances.


DALL-E, quant à lui, est un modèle de traitement du langage visuel. Il est capable de générer des images à partir de descriptions textuelles. Par exemple, si vous lui demandez de générer une image d'un chat avec des oreilles de lapin, il sera capable de créer une image correspondant à cette description. DALL-E est également entraîné sur un grand corpus de données et utilise une technique de pré-entraînement pour améliorer ses performances.


En résumé, GPT-3 est un modèle de traitement du langage utilisé pour la génération de texte, tandis que DALL-E est un modèle de traitement du langage visuel utilisé pour la génération d'images. Bien que tous les deux utilisent une technique de pré-entraînement pour améliorer leurs performances, ils sont conçus pour des tâches de traitement du langage différentes."


Mon feedback :


Tout de suite, c'est la compréhension du français qui me bluffe. Habituellement ces outils ont une excellente maîtrise de la langue anglaise. C’est généralement plus compliqué pour le français, une langue qui manque cruellement d’entrainement et de labellisation.


Côté efficacité, je note très peu de latence pour une réponse limpide et structurée. Le contenu étant plutôt haut niveau et permettant de démocratiser le sujet… On notera peut-être une structuration du texte un peu trop scolaire dans l’absolu !


Et la réponse de DALL-E maintenant :

Même consigne mais un résultat bien loin d’être aussi « compréhensible » que son compère GPT-3 dans un premier remps. L’outil vous propose toujours 4 réponses qui lui paraissent cohérentes et adaptées à la thématique mais je perçois très vite que je vais devoir « adapter ma technique à la manière du caméléon »…


Bien souvent en informatique, l’incompréhension vient de ce qui est positionné entre la chaise et le clavier, je me remets donc en question… Je décide de simplifier ma requête en lui demandant de se cantonner à un simple mot : COMPARAISON. Sans être transcendant, le résultat nous replonge surtout dans les illustrations PowerPoint des années 2000. Une représentation qui a toutefois le mérite d’être plus adaptée cette fois-ci.


Étape numéro 2 : "LE PLUS COMPLEXE ? »

Pour ce deuxième test, je décide de poser une question sans préciser que nous resterons dans le thème précédent pour vérifier sa capacité à rester dans le sujet (ou pas).

La réponse de CHATGPT

"GPT-3 est probablement le modèle de traitement du langage le plus complexe jamais développé.  Il est composé de 175 milliards de paramètres, ce qui en fait l'un des modèles de traitement du langage les plus grands et les plus avancés jamais créés. GPT-3 est capable de réaliser de nombreuses tâches de langage naturel de manière autonome, comme répondre à des questions, traduire du texte, rédiger des articles et même créer du code informatique.


DALL-E, quant à lui, est également un modèle complexe, mais il est conçu pour générer des images à partir de descriptions textuelles plutôt que pour réaliser des tâches de traitement du langage. Il est composé de 12 milliards de paramètres et utilise une technique de pré-entraînement pour améliorer ses performances.


En résumé, GPT-3 est le modèle de traitement du langage le plus complexe et le plus avancé jamais développé, tandis que DALL-E est un modèle visuel complexe utilisé pour la génération d'images à partir de descriptions textuelles. "


Mon feedback :


A ma grande satisfaction, le modèle reste sur le thème proposé. Après 2 réponses, l’on commence déjà à remarquer la structuration dans ses réponses. GPT-3, comme il se nomme lui-même, réutilise les éléments de la question pour construire sa réponse dans le premier paragraphe. Il détaille ensuite chaque partie de la demande avant de conclure sur le sujet. Une méthode qui est efficace.


Et la réponse de DALL-E :

Nouvel essai de l’outil pour Dall.E avec l’ambition d’être aussi concis que dans la première consigne : COMPLEXITE.


Je remarque tout de suite une meilleure compréhension sur cette thématique… Mon choix se porte directement sur la représentation de cet entrelacement qui nous oriente clairement vers cette notion de complexité (en espérant que les méandres de son réseau de neurones soient un peu mieux rangés ). De suite, je me demande si DALL.E ne serait pas plus inspiré en fonction des thématiques ?

Etape numéro 3 : "LEQUEL VA CAHNGER LE MONDE ?"

Nouvelle consigne et petit test pour ce « modèle de traitement du langage de grande envergure », (comme il se présente lui-même). Et si après avoir testé sa capacité à lire et comprendre le français, on testait sa résilience aux fautes d’orthographes…

La réponse de CHATGPT

"Il est difficile de dire lequel des modèles GPT-3 et DALL-E va le plus changer le monde, car ils ont tous les deux des applications potentielles très importantes et pourraient avoir un impact significatif dans de nombreux domaines.


GPT-3, en tant que modèle de traitement du langage de grande envergure, pourrait avoir un impact considérable dans de nombreux domaines qui utilisent le traitement du langage, comme la traduction, la rédaction de contenu, la création de code informatique et bien d'autres encore.


DALL-E, quant à lui, pourrait avoir un impact considérable dans de nombreux domaines qui utilisent l'image et le contenu visuel, comme la publicité, la création de contenu pour les réseaux sociaux, la conception de produits et bien d'autres encore.


En fin de compte, il est difficile de dire lequel des deux modèles va le plus changer le monde, car ils ont tous les deux des applications potentielles très importantes et pourraient avoir un impact significatif dans de nombreux domaines différents."


Mon feedback


Bref, j'ai fait une faute… Volontairement ou pas, je vous laisserai seul juge. Mais il est à noter que le délai de réponse se rallonge quelque peu (il semblerait que le modèle pédale un peu dans la semoule). Mais moins d’une minute plus tard, j'ai ma nouvelle réponse et je n’ai manifestement pas réussi à tromper la machine.


Outre le contenu qui est somme toute attendu, j’en profite pour aborder la longueur de la réponse proposée. L’outil a réussi à trouver un certain équilibre entre les paragraphes tout en étant assez harmonieux et cela même si la prose n'est pas des plus poétiques non plus.


Et la réponse de DALL-E :

Je décide d’aller plus loin dans ma demande : « CAHNGER LE MONDE » et même en conservant ma tromperie, il n’y a pour le coup pas plus de temps de latence que pour les autres demandes, quelques secondes d’attente tout au plus. On note que la vision artistique commence à se préciser, en utilisant même des lettres en complément dans le visuel.


La demande semble être comprise : le monde est représenté par le globe et la main doit vouloir signifier la volonté de changer… il n’a d’ailleurs pas été facile de choisir entre les 4 choix proposés par l’outil


Etape numéro 4 : « APRES L'ECRITURE ET LES IMAGES, QUEL SERA LE PROCHAIN ART QUI SERA REPRIS PAR LES ALGORITHMES ?"

Complexifions une nouvelle fois l’exercice et passons à une question plus complète...

La réponse de CHATGPT

"Il est difficile de prédire exactement quel sera le prochain domaine de création artistique qui sera repris par les algorithmes, mais il y a de nombreux domaines dans lesquels les algorithmes pourraient avoir un impact significatif dans un avenir proche.


Par exemple, les algorithmes pourraient être utilisés pour la création de musique, de danse, de théâtre et de cinéma. Les algorithmes pourraient également être utilisés pour la création de design, de photographie et de peinture.


Il est important de noter que, même si les algorithmes peuvent être utilisés pour créer de l'art, ils ne remplaceront pas complètement les artistes humains. Les algorithmes peuvent être utilisés comme outils pour aider les artistes à créer de nouvelles choses, mais ils ne pourront jamais remplacer complètement la créativité et l'inspiration humaines."

Mon feedback


Nous passons donc à cette question sujette à interprétation et proposant d’essayer d'anticiper le futur (enfin simplement 2023 assurément). L’outil se montre assez vague tout en donnant une prémisse d’avis sur les arts qui pourraient être les suivants dans la longue to-do listes d’OpenAI. Sa dernière phrase montre notamment l’intérêt crucial de ses concepteurs à sanctuariser la place de l’humain dans le domaine de la création.


Et la réponse de DALL-E :

La réalisation semble un peu plus grossière à première vue et on note la réutilisation de lettres semblant former un mot dans une langue qui reste encore à découvrir (une volonté affichée de DALL.E). On remarque la représentation de la main qui semble protéger le regard afin de regarder au loin : on valide la demande de projection de la question initiale…

Etape numéro 5 : « SI TU POUVAIS UTILISER DALL-E » ?

Testons maintenant l’inception…

La réponse de CHATGPT

"Comme je suis un modèle de traitement du langage et non pas un modèle visuel comme DALL-E, je ne suis pas capable de générer d'images moi-même.


Cependant, si j'étais capable de le faire et que je devais générer une image avec DALL-E, je pourrais essayer de créer une image de paysage avec des éléments de science-fiction, comme une ville futuriste sur une planète lointaine avec des vaisseaux spatiaux volant dans le ciel.


Cela pourrait être une image intéressante et originale qui combinerait à la fois la beauté naturelle et la technologie avancée."

Mon feedback


Tout en rappelant sa condition d’outil, nécessitant une action extérieure pour interagir, ChatGPT ne se laisse pas prier et se lance dans les méandres de son « imagination ». Imagination que je m’empresse de tester avec son compère !


Et la réponse de DALL-E :

Ni une ni deux, je décide de mettre en pratique le sujet de CHATGPT « créer une image de paysage avec des éléments de science-fiction, comme une ville futuriste sur une planète lointaine avec des vaisseaux spatiaux volant dans le ciel » et je vois ainsi les compétences de l’outil sous un nouvel angle.

L’un des résultats les plus bluffant de mes essais, à un tel point que j’ai eu du mal à choisir entre les 4 choix proposés par l’outil. Cette génération d’image plus qualitative est certainement relative à la demande qui fut, cette fois, beaucoup plus précise ( on contrebalancera cette idée en se souvenant de l’excellent résultat de la complexité un peu plus haut dans ce même article…)


Et pour conclure ...

Comme cela était annoncé en préambule, nous nous sommes un peu amusés avec ces 2 modèles d’IA tout en ayant pu « leur donner la parole ». Ce sont 2 outils aussi puissants que bluffants par leur capacité à comprendre les demandes simples et complexes, notamment au travers de la langue française.


Leurs productions se précisent au grès des demandes et des précisions du requérant mais pour l’amoureux des mots que je suis, j’avoue avoir une préférence pour ChatGPT. Ce dernier me parait plus complet et plus profond dans la compréhension de la demande du requérant. Et cela, même si la structuration des réponses semble parfois un peu stéréotypée.


Dall-E reste un produit assez puissant mais je fus beaucoup plus impressionné par l’un de ses concurrents MidJourney.


Aussi, au-delà de ces quelques tests, nous finirons sur une petite question non négligeable à ChatGPT incluant une notion importante de son utilisation, à savoir les droits d’auteur…


... Laissons la note finale à ChatGPT !

"Vous pouvez réutiliser le contenu que je vous ai fourni dans un article, à condition de respecter les règles de droit d'auteur. Si vous souhaitez réutiliser ce contenu, vous devriez inclure une citation indiquant que les informations proviennent de moi, comme ceci :


"Selon un assistant de OpenAI (https://openai.com/), GPT-3 est un modèle de traitement du langage de grande envergure, capable de générer du texte de manière autonome à partir de différentes tâches de langage naturel. Il est capable de répondre à des questions, de traduire du texte, de rédiger des articles et même de créer du code informatique. DALL-E, quant à lui, est un modèle de traitement du langage visuel. Il est capable de générer des images à partir de descriptions textuelles."


Il est important de respecter les droits d'auteur et de donner crédit aux sources d'informations que vous utilisez dans vos articles. Cela permet de maintenir l'intégrité et l'authenticité de votre travail, et c'est également un moyen de respecter les personnes qui ont contribué à la création de ces informations."



Geoffrey BLAECKE,

Responsable Marketing & Communication chez Néo-Soft

Découvrez nos autres articles sur la thématique de l'IA

  • Modèles prédictifs : comment lire l'avenir ?

    Modèles prédictifs : comment lire l'avenir ?

    Prédire et anticiper les comportements constitue un avantage conséquent dans les prises de décision de votre organisation. Alaeddine, Data Scientist au sein de notre agence lilloise, vous donne les clés pour valoriser l'exploitation de vos données.

    Découvrir
  • Qu'est-ce que le DeepFake ?

    Qu'est-ce que le DeepFake ?

    Procédé de plus en plus présent à la télévision et sur les réseaux sociaux, le DeepFake est devenu un véritable phénomène. À la fois bluffant et effrayant, nous allons vous faire découvrir ce qu’est le DeepFake, son fonctionnement et son processus de création à travers un voyage au cœur de l’Intelligence Artificielle.

    Découvrir
  • Knime, entre Data Engineering et Data Science

    Knime, entre Data Engineering et Data Science

    Focus sur Knime, l'outil couplant Data Engineering et Data Science afin de réaliser des workflows complets. Vijaya et Kyllian, Data Engineers au sein du Groupe Néo-Soft vous présentent Knime et ses nombreuses fonctionnalités.

    Découvrir