dall e

DALL-E : Générer des images à partir du langage naturel

OpenAI a créé une véritable révolution dans le domaine de la génération d’images avec ses modèles d’apprentissage profond, DALL-E et DALL-E 2. Ces outils d’intelligences artificielles permettent de générer des images numériques à partir de descriptions en langage naturel, appelées “prompts”.

image d'astronaute sur un cheval générée par dall-e

Dans cet article, nous explorerons les capacités, les applications, les limites et les préoccupations éthiques liées à ces modèles innovants.

Le lancement de DALL-E et DALL-E 2

  • OpenAI n’a pas publié le code source pour les modèles DALL-E, ce qui a suscité une grande curiosité dans le monde de la tech et de l’intelligence artificielle.
  • DALL-E 2 est entré en phase bêta en juillet 2022, avec des invitations envoyées à un million de personnes inscrites sur une liste d’attente.
  • En septembre 2022, OpenAI a ouvert son accès à tous les utilisateurs, supprimant la liste d’attente et permettant à chacun de générer un nombre limité d’images gratuitement chaque mois.

Intégration et applications

En novembre 2022, OpenAI a rendu DALL-E 2 disponible sous forme d’API, permettant aux développeurs d’intégrer le modèle dans leurs propres applications.

illustration présente sur le site de dall e 2

Des entreprises comme Microsoft, CALA et Mixtiles ont déjà adopté l’API DALL-E 2 pour améliorer leurs services, tels que l’application Designer de Microsoft et l’outil Image Creator inclus dans Bing et Microsoft Edge.

Le contexte technologique derrière DALL-E

Les modèles reposent sur le modèle GPT (Generative Pre-trained Transformer) développé par OpenAI en 2018.

Cet article pourrait vous intéresser :   Speechki : Text to MP3 sur ChatGPT
comparaison de génération d'images générées avec dall-e 1 et dall-e 2

DALL-E utilise une version modifiée de GPT-3 avec 12 milliards de paramètres, tandis que DALL-E 2 utilise 3,5 milliards de paramètres, un nombre moins élevé que son prédécesseur.

Capacités et limites des outils

DALL-E et DALL-E 2 présentent des capacités impressionnantes, telles que :

  • Générer des images dans différents styles, y compris des images photoréalistes, des peintures et des emojis.
  • Manipuler et réarranger des objets dans les images, positionnant correctement des éléments de design sans instructions explicites.
  • Générer des “variations” d’images existantes et modifier ou étendre des images selon une demande spécifique (uniquement pour DALL-E 2).

Cependant, ces outils présentent également des limites techniques, comme des erreurs de compréhension des descriptions, des difficultés à gérer des négations, des chiffres ou des phrases complexes, et une capacité limitée à traiter des informations scientifiques spécifiques.

logo open ai noir et blanc

Préoccupations éthiques

Les modèles soulèvent plusieurs préoccupations éthiques…

Notamment :

  • La présence de biais algorithmiques, tels que la génération d’un plus grand nombre d’images d’hommes que de femmes lorsque cela n’est pas spécifié dans les descriptions.
  • Les problèmes liés au respect du droit d’auteur et aux données utilisées pour entraîner les modèles.
  • L’impact potentiel sur les artistes, les photographes et les graphistes, qui pourraient être confrontés à du chômage technologique en raison de la popularité de ces outils.

Réception et controverses

Si les réalisations ont suscité l’attention des médias, certains ont exprimé des réactions négatives, notamment dans la communauté de l’anime au Japon, où la notion d’art créé par une intelligence artificielle est remise en question.

débat sur bbc à propos de l'intelligence artificielle

Des préoccupations concernant le respect du droit d’auteur et les données utilisées pour entraîner les modèles ont également été soulevées.

Cet article pourrait vous intéresser :   Comment l'IA peut-elle résoudre le problème de la faim mondiale ?

Implémentations open-source

En dépit de l’absence de code source officiel, des implémentations open-source ont vu le jour, comme le projet Craiyon (anciennement DALL-E Mini).

Ces initiatives attirent l’attention grâce à leur capacité à générer des images humoristiques et créatives.

En résumé

Ces outils représentent une avancée majeure dans la génération d’images à partir du langage naturel.

Malgré leurs limites et les préoccupations éthiques qu’ils soulèvent, ces outils d’intelligence artificielle offrent de nombreuses possibilités pour les développeurs, les entreprises et les artistes.

Auteur / autrice

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

meydeey 2024

Medhi EL OUARDOUNI

Cet article a été rédigé par Medhi EL OUARDOUNI alias Meydeey, spécialiste en automatisation avec l’intelligence artificielle (IA) et ingénieur système.

Partager cet article :

Twitter
LinkedIn
Facebook
Email
Imprimer