Nous, les humains, aimons penser que nous sommes les seuls êtres capables de créativité, mais les ordinateurs sont utilisés comme force génératrice depuis des décennies, créant des œuvres d’écriture, d’art, de musique et de design originales. Cette renaissance numérique, alimentée par les progrès de l’intelligence artificielle et de l’apprentissage automatique, a marqué le début d’une nouvelle ère dans laquelle la technologie non seulement se reproduit, mais aussi innove, brouillant les frontières entre la créativité humaine et celle des machines. Des algorithmes qui composent les symphonies aux logiciels qui rédigent des romans, le champ de la créativité générée par ordinateur s’étend, remettant en question nos notions préconçues de talent artistique et d’originalité.
Les réseaux contradictoires génératifs (GAN) pour la génération d’images ont été
Un an plus tard, Flow Machines, une division de Sony,
Si ce contenu sur l’IA appliquée vous est utile, abonnez-vous à notre liste de diffusion sur l’IA pour être alerté lorsque nous publions du nouveau matériel.
L’avènement récent de l’IA générative a déclenché une renaissance de la créativité informatique. ChatGPT d’OpenAI est probablement devenu l’exemple le plus connu de la puissance de génération de texte de l’IA, mais il a de nombreux concurrents puissants, notamment Claude d’Anthropic, Gemini de Google, Llama de Meta et d’autres.
Ces grands modèles linguistiques (LLM) possèdent la capacité de rédiger du texte sur pratiquement n’importe quel sujet, tout en reflétant un style d’écriture sur mesure. Par exemple, imaginez que nous chargeons ChatGPT d’écrire un article sur la domination mondiale de l’intelligence artificielle en créant des livres, en créant des images et en générant du code, le tout dans le style dramatique d’un slam poétique. La création qui en résulte est assez impressionnante.
Bien que cela constitue une illustration ludique, les applications potentielles des LLM vont bien au-delà du simple divertissement :
Des titans de l’industrie comme Adobe intensifient également leur action, en mettant l’accent sur les implications éthiques et juridiques des images générées par l’IA. Pour apaiser les inquiétudes des entreprises concernant l’utilisation d’images générées par l’IA, Adobe a limité son ensemble de données de formation aux images sous licence Adobe Stock et du domaine public. De plus, ils offrent une indemnisation IP pour le contenu créé à l’aide de certains flux de travail Firefly, leur générateur d’images IA propriétaire. D’autres, dont Google, Microsoft et OpenAI, ont suivi leur exemple pour améliorer la transition des entreprises clientes vers le contenu généré par l’IA.
Malgré des progrès significatifs dans la génération d’images IA tout au long de 2023, la technologie est toujours confrontée à des limites notables, semblables à celles rencontrées par les LLM. Le principal de ces défis est la tendance des outils d’IA à s’écarter des instructions explicites fournies dans les invites, à produire des images avec des artefacts occasionnels et à présenter des biais en matière de diversité. En règle générale, les générateurs d’images IA produisent un contenu qui reflète les bases de données en ligne disponibles, qui sont souvent constituées d’images représentant des individus esthétiquement attrayants, ressemblant à des modèles, principalement des femmes et des hommes blancs. Pour parvenir à une représentation plus équitable, il est nécessaire d’introduire délibérément de la diversité dans les images générées. Il convient toutefois d’être prudent pour éviter les pièges d’une surcorrection, comme en témoigne la controverse entourant la génération d’images Gemini de Google. L’outil a été critiqué pour son parti pris extrême consistant à refuser de générer des images d’individus blancs, en particulier d’hommes blancs, et à produire des représentations non conventionnelles, comme par exemple des papes noirs et des femmes soldats nazies.
L’année dernière a marqué le début d’avancées notables dans la génération et l’édition de texte en vidéo, avec des pionniers comme Runway en tête. Ils étaient à l’avant-garde de la création de nouvelles vidéos à partir d’invites textuelles et de documents de référence. Cependant, les vidéos étaient limitées à environ quatre secondes, étaient toujours de mauvaise qualité et présentaient des problèmes importants de déformation et de morphing.
L’année 2024 était censée être un moment décisif pour la génération de vidéos IA, et elle a déjà commencé à répondre à ces attentes. OpenAI a récemment dévoilé Sora, son générateur vidéo d’IA qui, sur la base des démonstrations disponibles, dépasse largement les capacités des outils alternatifs développés par Runway, Pika Labs, Genmo, Google (Lumiere), Meta (Emu) et ByteDance (MagicVideo-V2).
Même si Sora se distingue de ses concurrents, il reste inaccessible au public et l’étendue de ses capacités n’a pas encore été évaluée de manière approfondie au-delà de la sphère de démonstrations méticuleusement élaborées.
Néanmoins, la capacité de la technologie à transformer divers secteurs, tels que le divertissement, le cinéma et le marketing, est immense. Il reste à déterminer dans quelle mesure les vidéos générées par l’IA seront utilisées dans les entreprises et quels sont leurs principaux défis. Cependant, même aujourd’hui, la prolifération de vidéos deepfakes en ligne suscite une inquiétude croissante, car il devient de plus en plus simple de produire des vidéos convaincantes décrivant des événements qui ne se sont jamais produits.
Les systèmes d’IA créateurs ont occupé le devant de la scène ces dernières années, étendant leur influence à une multitude de secteurs, de l’art, du design, de la musique et du divertissement au développement de logiciels, à l’éducation et au développement de médicaments. À mesure que ces systèmes deviennent plus sophistiqués, ils promettent de redéfinir ce qui est possible, ouvrant de nouvelles voies à l’innovation et à la créativité. La fusion de l’intelligence artificielle et de l’ingéniosité humaine a le potentiel d’accélérer les percées, de résoudre des problèmes complexes et de créer des expériences autrefois inimaginables. Alors que nous sommes à l’aube de cette nouvelle frontière, il est crucial d’en comprendre les implications éthiques et de veiller à ce que ces technologies soient utilisées de manière responsable et pour le bien commun.
Nous vous informerons lorsque nous publierons d’autres articles de synthèse comme celui-ci.