Qu'est-ce que Imagen, l'IA surpuissante de Google ?

Choses à Savoir TECH - Un pódcast de Choses à Savoir

Categorías:

Est-ce que vous vous souvenez de DALL-E 2, cette intelligence artificielle conçue par la firme OpenAI, et qui permet de créer des images simplement à partir de texte ? Si ce n'est pas le cas, je vous invite à écouter l'épisode que nous lui avions consacré il y a quelques mois. Mais aujourd'hui, il semblerait que DALL-E 2 ait du soucis à se faire puisque son concurrent développé par Google et intitulé Imagen propose des résultats encore plus impressionnant. Pour se rendre compte des possibilités quasi infinies qu'offre Imagen, il suffit simplement de se rendre sur le site internet de l'IA. Dans la note d'intention, les développeurs la décrivent comme je cite « un modèle de diffusion texte-image doté d’un degré de photoréalisme et de compréhension du langage sans précédent » fin de citation... bref, il serait donc possible de donner vie à toutes nos idées les plus folles. Tout comme DALL-E 2, il suffirait simplement de taper une phrase avec tous les critères souhaités pour que Imagen donne vie à votre idée. Plusieurs exemples sur son site permettent en effet de mesurer l’étendue des capacités de l'IA, comme je cite « un cobra géant dans une ferme, mais le cobra est constitué de maïs […] un cerveau chevauchant une fusée en direction de la lune [ou encore] un oiseau très énervé »... au delà de cette petite sélection, le site offre plusieurs dizaines d'autres visuels, chacun dans son propre style, mais tous aussi bluffant les uns que les autres, à tel point qu'on se demanderait presque s'il ne s'agirait pas du travail d'un vrai artiste. Dès lors, comment l'IA arrive-t-elle à produire de tels résultats ? Et bien grâce à la méthode dite de la diffusion. Tout d'abord, l'IA part d'une image en faible résolution. À force de piocher dans sa base de donnée grâce à la technique du machine learning, Imagen va être en mesure d'affiner la version finale de l'image souhaitée. Pendant le processus, de nombreux détails sont ajoutés afin d'harmoniser la composition finale dans un format carré de 1 024 par 1 024 pixels. À noter que les images exposées sur le site ont été produite dans des conditions de laboratoires très contrôlées et que l'usage de cet IA est pour l'instant circonscrite aux chercheurs de chez Google. Aucune date d'ouverture au grand public n'a été annoncé, et pour cause ! Dans un chapitre intitulé « limites et impact sociétal », les chercheurs ne cachent pas leur inquiétude de voir leur technologie détournée à des fins douteuses. De plus, Imagen mobilise des sets de données dans lesquels aucun tri n'aurait été fait, ce qui lui a permis de progresser plus rapidement, mais qui ouvre aussi la porte à des interprétations racistes, sexistes, ou même pornographique. Learn more about your ad choices. Visit megaphone.fm/adchoices

Visit the podcast's native language site