OpenAI a créé une véritable révolution dans le domaine de la génération d’images avec ses modèles d’apprentissage profond, DALL-E et DALL-E 2. Ces outils d’intelligences artificielles permettent de générer des images numériques à partir de descriptions en langage naturel, appelées “prompts”.
Dans cet article, nous explorerons les capacités, les applications, les limites et les préoccupations éthiques liées à ces modèles innovants.
Le lancement de DALL-E et DALL-E 2
- OpenAI n’a pas publié le code source pour les modèles DALL-E, ce qui a suscité une grande curiosité dans le monde de la tech et de l’intelligence artificielle.
- DALL-E 2 est entré en phase bêta en juillet 2022, avec des invitations envoyées à un million de personnes inscrites sur une liste d’attente.
- En septembre 2022, OpenAI a ouvert son accès à tous les utilisateurs, supprimant la liste d’attente et permettant à chacun de générer un nombre limité d’images gratuitement chaque mois.
Intégration et applications
En novembre 2022, OpenAI a rendu DALL-E 2 disponible sous forme d’API, permettant aux développeurs d’intégrer le modèle dans leurs propres applications.
Des entreprises comme Microsoft, CALA et Mixtiles ont déjà adopté l’API DALL-E 2 pour améliorer leurs services, tels que l’application Designer de Microsoft et l’outil Image Creator inclus dans Bing et Microsoft Edge.
Le contexte technologique derrière DALL-E
Les modèles reposent sur le modèle GPT (Generative Pre-trained Transformer) développé par OpenAI en 2018.
DALL-E utilise une version modifiée de GPT-3 avec 12 milliards de paramètres, tandis que DALL-E 2 utilise 3,5 milliards de paramètres, un nombre moins élevé que son prédécesseur.
Capacités et limites des outils
DALL-E et DALL-E 2 présentent des capacités impressionnantes, telles que :
- Générer des images dans différents styles, y compris des images photoréalistes, des peintures et des emojis.
- Manipuler et réarranger des objets dans les images, positionnant correctement des éléments de design sans instructions explicites.
- Générer des “variations” d’images existantes et modifier ou étendre des images selon une demande spécifique (uniquement pour DALL-E 2).
Cependant, ces outils présentent également des limites techniques, comme des erreurs de compréhension des descriptions, des difficultés à gérer des négations, des chiffres ou des phrases complexes, et une capacité limitée à traiter des informations scientifiques spécifiques.
Préoccupations éthiques
Les modèles soulèvent plusieurs préoccupations éthiques…
Notamment :
- La présence de biais algorithmiques, tels que la génération d’un plus grand nombre d’images d’hommes que de femmes lorsque cela n’est pas spécifié dans les descriptions.
- Les problèmes liés au respect du droit d’auteur et aux données utilisées pour entraîner les modèles.
- L’impact potentiel sur les artistes, les photographes et les graphistes, qui pourraient être confrontés à du chômage technologique en raison de la popularité de ces outils.
Réception et controverses
Si les réalisations ont suscité l’attention des médias, certains ont exprimé des réactions négatives, notamment dans la communauté de l’anime au Japon, où la notion d’art créé par une intelligence artificielle est remise en question.
Des préoccupations concernant le respect du droit d’auteur et les données utilisées pour entraîner les modèles ont également été soulevées.
Implémentations open-source
En dépit de l’absence de code source officiel, des implémentations open-source ont vu le jour, comme le projet Craiyon (anciennement DALL-E Mini).
Ces initiatives attirent l’attention grâce à leur capacité à générer des images humoristiques et créatives.
En résumé
Ces outils représentent une avancée majeure dans la génération d’images à partir du langage naturel.
Malgré leurs limites et les préoccupations éthiques qu’ils soulèvent, ces outils d’intelligence artificielle offrent de nombreuses possibilités pour les développeurs, les entreprises et les artistes.