Article de reference

AI art

Théâtre D'opéra Spatial (Space Opera Theater; 2022) won the 2022 Colorado State Fair 's annual fine art competition in the "emerging artist" (non-professional) division of the "...

Image impressionniste de personnages dans une scène d'opéra futuriste
Théâtre D'opéra Spatial (Space Opera Theater; 2022) won the 2022 Colorado State Fair's annual fine art competition in the "emerging artist" (non-professional) division of the "Digital Arts/Digitally-Manipulated Photography" category.

Artificial intelligence visual art, or AI art, is visual artwork generated or enhanced through the implementation of artificial intelligence (AI) programs, most commonly using text-to-image models. The process of automated art-making has existed since antiquity. The field of artificial intelligence was founded in the 1950s, and artists began to create art with artificial intelligence shortly after the discipline's founding. A select number of these creations have been showcased in museums and have been recognized with awards. Throughout its history, AI has raised many philosophical questions related to the human mind, artificial beings, and the nature of art in human–AI collaboration.

Durant l’ essor de l’IA dans les années 2020, des modèles de conversion texte-image tels que Midjourney , DALL-E et Stable Diffusion sont devenus largement accessibles au public, permettant aux utilisateurs de générer rapidement des images avec peu d’effort. Les commentaires sur l’art généré par l’IA dans les années 2020 se sont souvent concentrés sur les questions liées au droit d’auteur , à la tromperie , à la diffamation et à son impact sur les artistes plus traditionnels, notamment le chômage technologique .

En août 2023, la Cour suprême des États-Unis a statué que les œuvres d'art générées par l'IA ne sont pas protégeables par le droit d'auteur, car elles ne répondent pas aux critères de l'auteur humain. En mars 2026, elle a refusé d'examiner une affaire portant sur la possibilité de protéger par le droit d'auteur les œuvres d'art générées par l'IA.

Histoire

Histoire ancienne

L'automate de Maillardet dessinant un tableau

L’art automatisé remonte au moins aux automates de la Grèce antique , où des inventeurs comme Dédale et Héron d’Alexandrie auraient conçu des machines capables d’écrire, de produire des sons et de jouer de la musique. Les automates créatifs ont connu un essor considérable à travers l’histoire, à l’instar de l’automate de Maillardet , créé vers 1800 et capable de réaliser de nombreux dessins et poèmes.

Au XIXe siècle également, Ada Lovelace écrivait que les « opérations informatiques » pourraient potentiellement servir à générer de la musique et des poèmes. En 1950, l’article d’ Alan Turing intitulé « Computing Machinery and Intelligence » s’intéressait à la capacité des machines à imiter le comportement humain de manière convaincante. Peu après, la discipline universitaire de l’intelligence artificielle fut fondée lors d’un atelier de recherche au Dartmouth College en 1956.

Depuis sa fondation, les chercheurs en IA ont exploré des questions philosophiques sur la nature de l'esprit humain et les conséquences de la création d'êtres artificiels dotés d'une intelligence semblable à celle de l'homme ; ces questions ont déjà été explorées par les mythes , la fiction et la philosophie depuis l'Antiquité.

Artistic history

Karl Sims' Galápagos installation allowed visitors to evolve 3D animated forms.

Since the founding of AI in the 1950s, artists have used artificial intelligence to create artistic works. These works were sometimes referred to as algorithmic art,computer art, digital art, or new media art.

One of the first significant AI art systems is AARON, developed by Harold Cohen beginning in the late 1960s at the University of California at San Diego. AARON uses a symbolic rule-based approach to generate technical images in the era of GOFAI programming, and it was developed by Cohen with the goal of being able to code the act of drawing. AARON was exhibited in 1972 at the Los Angeles County Museum of Art. From 1973 to 1975, Cohen refined AARON during a residency at the Artificial Intelligence Laboratory at Stanford University. In 2024, the Whitney Museum of American Art exhibited AI art from throughout Cohen's career, including re-created versions of his early robotic drawing machines.

Karl Sims has exhibited art created with artificial life since the 1980s. He received an M.S. in computer graphics from the MIT Media Lab in 1987 and was artist-in-residence from 1990 to 1996 at the supercomputer manufacturer and artificial intelligence company Thinking Machines. In both 1991 and 1992, Sims won the Golden Nica award at Prix Ars Electronica for his videos using artificial evolution. In 1997, Sims created the interactive artificial evolution installation Galápagos for the NTT InterCommunication Center in Tokyo. Sims received an Emmy Award in 2019 for outstanding achievement in engineering development.

Example of Electric Sheep by Scott Draves

In 1999, Scott Draves and a team of several engineers created and released Electric Sheep as a free software screensaver.Electric Sheep is a volunteer computing project for animating and evolving fractal flames, which are distributed to networked computers that display them as a screensaver. The screensaver used AI to create an infinite animation by learning from its audience. In 2001, Draves won the Fundacion Telefónica Life 4.0 prize for Electric Sheep.

In 2014, Stephanie Dinkins began working on Conversations with Bina48. For the series, Dinkins recorded her conversations with BINA48, a social robot that resembles a middle-aged black woman. In 2019, Dinkins won the Creative Capital award for her creation of an evolving artificial intelligence based on the "interests and culture(s) of people of color."

In 2015, Sougwen Chung began Mimicry (Drawing Operations Unit: Generation 1), an ongoing collaboration between the artist and a robotic arm. In 2019, Chung won the Lumen Prize for her continued performances with a robotic arm that uses AI to attempt to draw in a manner similar to Chung.

Edmond de Belamy, created with a generative adversarial network in 2018

In 2018, an auction sale of artificial intelligence art was held at Christie's in New York where the AI artwork Edmond de Belamy sold for US$432,500, which was almost 45 times higher than its estimate of US$7,000–10,000. The artwork was created by Obvious, a Paris-based collective.

In 2024, Japanese film generAIdoscope was released. The film was co-directed by Hirotaka Adachi, Takeshi Sone, and Hiroki Yamaguchi. All video, audio, and music in the film were created with artificial intelligence.

En 2025, la série télévisée d'animation japonaise Twins Hinahima a été diffusée. L'anime a été produit et animé avec l'aide de l'IA lors du découpage et de la conversion des photographies en illustrations animées, puis retouché par l'équipe artistique. La plupart des éléments restants, tels que les personnages et les logos, ont été dessinés à la main à l'aide de divers logiciels.

Historique technique

L'apprentissage profond , caractérisé par sa structure multicouche qui tente d'imiter le cerveau humain, est apparu dans les années 2010, provoquant un changement significatif dans le monde de l'art IA. Pendant l'ère de l'apprentissage profond, on trouve principalement ces types de conceptions pour l'art génératif : modèles autorégressifs , modèles de diffusion , GAN , flux normalisants .

En 2014, Ian Goodfellow et ses collègues de l'Université de Montréal ont développé le réseau antagoniste génératif (GAN), un type de réseau neuronal profond capable d'apprendre à imiter la distribution statistique de données d'entrée telles que des images. Le GAN utilise un « générateur » pour créer de nouvelles images et un « discriminateur » pour déterminer quelles images créées sont considérées comme réussies. Contrairement aux formes d'art algorithmique précédentes qui suivaient des règles codées manuellement, les réseaux antagonistes génératifs peuvent apprendre une esthétique spécifique en analysant un ensemble de données d'images d'exemple.

En 2015, une équipe de Google a publié DeepDream , un programme utilisant un réseau neuronal convolutif pour identifier et amplifier des motifs dans les images grâce à la paréidolie algorithmique . Ce processus crée des images volontairement surtraitées, à l'aspect onirique évoquant une expérience psychédélique . Plus tard, en 2017, un GAN conditionnel a appris à générer 1 000 classes d'images d' ImageNet , une vaste base de données visuelle conçue pour la recherche en logiciels de reconnaissance d'objets visuels . En conditionnant le GAN à la fois sur du bruit aléatoire et sur une étiquette de classe spécifique, cette approche a amélioré la qualité de la synthèse d'images pour les modèles conditionnels.

Des modèles autorégressifs ont été utilisés pour la génération d'images, comme PixelRNN (2016), qui génère de manière autorégressive un pixel après l'autre à l'aide d'un réseau neuronal récurrent . Immédiatement après sa proposition dans Attention Is All You Need (2018), l' architecture Transformer a été utilisée pour la génération autorégressive d'images, mais sans conditionnement textuel.

Le site web Artbreeder , lancé en 2018, utilise les modèles StyleGAN et BigGAN pour permettre aux utilisateurs de générer et de modifier des images telles que des visages, des paysages et des peintures.

Dans les années 2020, les modèles de conversion de texte en image , qui génèrent des images à partir d'invites , sont devenus largement utilisés, marquant un autre changement dans la création d'œuvres d'art générées par l'IA.

Exemple d'image réalisée avec VQGAN-CLIP (NightCafe Studio, mars 2023)
Exemple d'une image réalisée avec Flux 1.1 Pro en mode Raw (novembre 2024) ; ce mode est conçu pour générer des images photoréalistes.

En 2021, OpenAI a publié une série d'images créées avec le modèle d'IA de conversion texte-image DALL-E 1 [ utilisant les modèles de transformateurs pré-entraînés génératifs de grande taille influents utilisés dans GPT-2 et GPT-3 . Il s'agit d'un modèle génératif autorégressif dont l'architecture est essentiellement la même que celle de GPT-3. Parallèlement, plus tard en 2021, EleutherAI a publié le modèle open source VQGAN-CLIP basé sur le modèle CLIP d'OpenAI. Les modèles de diffusion , modèles génératifs utilisés pour créer des données synthétiques à partir de données existantes, ont été proposés pour la première fois en 2015, mais ils ne sont devenus supérieurs aux GAN qu'au début de 2021. Le modèle de diffusion latente a été publié en décembre 2021 et est devenu la base du modèle Stable Diffusion (août 2022), développé en collaboration entre Stability AI, le groupe CompVis de l'université Ludwig Maximilian de Munich et Runway.

En 2022, Midjourney a été lancé, suivi par Imagen et Parti de Google Brain , annoncés en mai 2022, NUWA-Infinity de Microsoft et Stable Diffusion , disponible en code source et publié en août 2022 DALL-E 2, successeur de DALL-E, a été testé en version bêta puis publié (son successeur, DALL-E 3, étant publié en 2023). Stability AI propose une interface web pour Stable Diffusion appelée DreamStudio , des plugins pour Krita , Photoshop , Blender et GIMP , ainsi que l' interface utilisateur web open source Automatic1111 . Le modèle pré-entraîné principal de Stable Diffusion est partagé sur le Hugging Face Hub .

Ideogram a été lancé en août 2023 ; ce modèle est connu pour sa capacité à générer du texte lisible.

En 2024, Flux a été lancé. Ce modèle, capable de générer des images réalistes, a été intégré à Grok , le chatbot utilisé sur X (anciennement Twitter) , et à Le Chat , le chatbot de Mistral AI . Flux a été développé par Black Forest Labs, fondé par les chercheurs à l'origine de Stable Diffusion. Grok a ensuite adopté son propre modèle de conversion texte-image, Aurora, en décembre de la même année. Plusieurs entreprises ont également développé, parallèlement à leurs produits, un modèle d'IA intégré à un service de retouche d'images. Adobe a lancé et intégré le modèle d'IA Firefly à Premiere Pro , Photoshop et Illustrator . Microsoft a également annoncé publiquement des fonctionnalités de génération d'images par IA pour Microsoft Paint . En outre, parmi les exemples de modèles de conversion texte-vidéo du milieu des années 2020, on peut citer Gen-4 de Runway , VideoPoet de Google , Sora d'OpenAI , sorti en décembre 2024, et LTX-2 , sorti en 2025.

En 2025, plusieurs modèles ont été publiés. GPT Image 1 d' OpenAI , lancé en mars 2025, a introduit de nouvelles fonctionnalités de rendu de texte et des capacités multimodales, permettant la génération d'images à partir de diverses entrées telles que des croquis et du texte. MidJourney v7 a fait ses débuts en avril 2025, offrant un traitement amélioré des invites textuelles. En mai 2025, Flux.1 Kontext de Black Forest Labs s'est imposé comme un modèle efficace pour la génération d'images haute fidélité, tandis que Google Imagen 4 a été lancé avec un photoréalisme amélioré. Flux.2 a fait ses débuts en novembre 2025 avec une meilleure gestion des images de référence, de la typographie et de la compréhension des invites.

Outils et processus

Approches

De nombreuses approches sont utilisées par les artistes pour développer des œuvres visuelles générées par l'IA. La conversion de texte en image permet à l'IA de créer des images à partir de descriptions textuelles, en utilisant des modèles tels que la diffusion ou les architectures de type transformeur. L'utilisateur saisit des instructions et l'IA produit les visuels correspondants. La conversion d'image en image permet à l'IA de transformer une image d'entrée en un nouveau style ou une nouvelle forme à partir d'une instruction ou d'une référence stylistique, par exemple en transformant un croquis en une image photoréaliste ou en appliquant un style artistique. La ​​conversion d'image en vidéo permet à l'IA de générer de courts clips vidéo ou des animations à partir d'une image unique ou d'une séquence d'images, en ajoutant souvent du mouvement ou des transitions. Cela peut inclure l'animation de portraits fixes ou la création de scènes dynamiques. La conversion de texte en vidéo permet à l'IA de créer des vidéos directement à partir d'instructions textuelles, produisant des animations, des scènes réalistes ou des visuels abstraits. Il s'agit d'une extension de la conversion de texte en image, mais axée sur les séquences temporelles.

Imagerie

Exemple d'utilisation de ComfyUI pour Stable Diffusion XL. Il est possible d'ajuster les variables (telles que CFG, seed et sampler) nécessaires à la génération de l'image.

De nombreux outils sont à la disposition des artistes travaillant avec des modèles de diffusion. Ils peuvent définir des incitations positives et négatives, et choisir d'utiliser (ou non) des VAE , des LoRA , des hyperréseaux, des adaptateurs IP et des inversions textuelles/d'intégration. Les artistes peuvent ajuster des paramètres tels que l'échelle de guidage (qui équilibre créativité et précision), la graine (pour contrôler l'aléatoire) et les suréchantillonneurs (pour améliorer la résolution de l'image), entre autres. Une influence supplémentaire peut être exercée lors de la pré-inférence par la manipulation du bruit, tandis que les techniques de post-traitement traditionnelles sont fréquemment utilisées après l'inférence. Il est également possible d'entraîner ses propres modèles.

De plus, des techniques de génération d'images procédurales « à base de règles » ont été développées, utilisant des modèles mathématiques, des algorithmes simulant les coups de pinceau et autres effets picturaux, ainsi que des modèles d'apprentissage profond tels que les réseaux antagonistes génératifs (GAN) et les transformeurs. Plusieurs entreprises ont lancé des applications et des sites web permettant aux utilisateurs de se concentrer exclusivement sur des suggestions positives, évitant ainsi la configuration manuelle d'autres paramètres. Il existe également des programmes capables de transformer des photographies en images stylisées imitant l'esthétique de styles picturaux célèbres.

Il existe de nombreuses options, allant de simples applications mobiles grand public à des notebooks Jupyter et des interfaces web nécessitant des GPU puissants pour fonctionner efficacement. Parmi les fonctionnalités supplémentaires, on trouve l'« inversion textuelle », qui permet d'utiliser des concepts fournis par l'utilisateur (comme un objet ou un style) appris à partir de quelques images. De nouvelles œuvres d'art peuvent ensuite être générées à partir du ou des mots associés (le texte attribué au concept appris, souvent abstrait) , ainsi que des extensions ou un réglage fin du modèle (comme DreamBooth ).

Impact et applications

L'IA recèle un potentiel de transformation sociétale , notamment en permettant l'essor de genres de niche non commerciaux (tels que les dérivés du cyberpunk comme le solarpunk ) créés par des amateurs, en proposant de nouveaux divertissements, en accélérant le prototypage , en facilitant l'accès à la création artistique et en optimisant la production artistique par rapport aux efforts, aux dépenses ou au temps – par exemple, grâce à la génération d'ébauches, de définitions d'ébauches et de composants d'images ( inpainting ). Les images générées servent parfois d'esquisses , d'expérimentations à faible coût , de sources d'inspiration ou d'illustrations pour des idées au stade de validation de concept . Des fonctionnalités ou améliorations supplémentaires peuvent également concerner l'édition manuelle post-génération (c'est-à-dire le peaufinage), par exemple par des retouches ultérieures à l'aide d'un logiciel de retouche d'images

Les artistes visuels et les designers professionnels ont davantage recours à l'IA générative lors des phases préliminaires de conceptualisation (pensée divergente) que lors de la production finale (pensée convergente). De plus, les pratiques produisant des contenus numériques ou éphémères (par exemple, la conception d'interfaces utilisateur/d'expérience utilisateur, l'art conceptuel) intègrent plus facilement ces technologies que celles produisant des artefacts physiques et permanents (par exemple, la sculpture, l'architecture). Dans le domaine physique, les préoccupations liées à l'intégrité structurelle, aux contraintes matérielles et à l'« ethno-informatique » culturelle limitent souvent l'IA à un rôle d'« amélioration complémentaire » plutôt qu'à un substitut à la production. Par ailleurs, l'attitude face à l'adoption de l'IA générative varie considérablement selon l'étape de la carrière. Les jeunes professionnels la perçoivent comme un prolongement pragmatique des outils numériques, indispensable à la compétitivité sur le marché, tandis que les professionnels expérimentés expriment souvent un scepticisme critique quant à la dévalorisation de l'expertise incarnée et du développement des compétences à long terme.

Ingénierie et partage rapides

Prompts for some text-to-image models can also include images and keywords and configurable parameters, such as artistic style, which is often used via keyphrases like "in the style of [name of an artist]" in the prompt /or selection of a broad aesthetic/art style. There are platforms for sharing, trading, searching, forking/refining, or collaborating on prompts for generating specific imagery from image generators. Prompts are often shared along with images on image-sharing websites such as Reddit and AI art-dedicated websites. A prompt is not the complete input needed for the generation of an image; additional inputs that determine the generated image include the output resolution, random seed, and random sampling parameters.

Related terminology

Synthetic media, which includes AI art, was described in 2022 as a major technology-driven trend that will affect business in the coming years.Harvard Kennedy School researchers voiced concerns about synthetic media serving as a vector for political misinformation soon after studying the proliferation of AI art on the X platform.Synthography is a proposed term for the practice of generating images that are similar to photographs using AI.

Philosophical context

AI-generated visual art has been discussed in relation to questions of creativity, authorship, embodiment, and the status of images. The technology has also renewed debates about photographic and cinematic indexicality, since generative systems can produce images without recording a corresponding physical event in front of a camera.

Dans son essai de 2026 intitulé « Manifeste de la réalité : Le cinéma après la trace physique », le cinéaste et artiste Johannes Grenzfurthner plaide pour une « divulgation ontologique », établissant une distinction entre images référentielles physiques, images hybrides et images entièrement synthétiques. L’artiste et enseignant Matt Ballou aborde l’argument de Grenzfurthner lors d’une conférence de 2026 sur l’IA et la pédagogie, en le reliant aux enjeux de l’incarnation, de la paternité et de la possibilité de vérifier l’origine physique d’une image, d’un document ou d’un événement. Cet argument est également analysé dans un essai de 2026 publié par paraflows , qui interprète la distinction proposée par Grenzfurthner entre images événementielles, hybrides et entièrement synthétiques comme une réponse esthétique et politique à l’affaiblissement de la frontière traditionnelle entre documentaire et fiction.

Analyse de l'art existant à l'aide de l'IA

Outre la création d'œuvres originales, des méthodes de recherche utilisant l'IA ont été développées pour analyser quantitativement les collections d'art numérique. Ceci a été rendu possible par la numérisation à grande échelle des œuvres d'art au cours des dernières décennies. Selon CETINIC et SHE (2022), l'utilisation de l'intelligence artificielle pour analyser les collections d'art existantes peut offrir de nouvelles perspectives sur l'évolution des styles artistiques et l'identification des influences artistiques.

Deux méthodes informatiques, l'analyse détaillée et l'analyse à distance, sont les approches typiques utilisées pour analyser l'art numérisé. L'analyse détaillée se concentre sur des aspects visuels spécifiques d'une œuvre. Parmi les tâches effectuées par les machines dans le cadre de cette méthode figurent l'authentification informatique de l'artiste et l'analyse des coups de pinceau ou des propriétés de texture. En revanche, les méthodes d'analyse à distance permettent de visualiser statistiquement la similarité d'une caractéristique spécifique au sein d'une collection entière. Les tâches courantes liées à cette méthode comprennent la classification automatique, la détection d'objets , les tâches multimodales , la découverte de connaissances en histoire de l'art et l'esthétique informatique. Les images de synthèse peuvent également servir à entraîner des algorithmes d'IA pour l'authentification d'œuvres d'art et la détection de contrefaçons.

Des chercheurs ont également mis au point des modèles prédictifs des réactions émotionnelles à l'art. ArtEmis, un vaste ensemble de données associé à des modèles d'apprentissage automatique, en est un exemple. ArtEmis comprend des annotations émotionnelles de plus de 6 500 participants, accompagnées d'explications textuelles. En analysant à la fois les éléments visuels et les descriptions textuelles associées, ArtEmis permet de générer des prédictions émotionnelles nuancées.

Autres formes d'art de l'IA

L'IA a également été utilisée dans d'autres domaines artistiques que les arts visuels. L'IA générative a servi à la création musicale , ainsi qu'à la production de jeux vidéo , notamment pour la conception de niveaux (par exemple, des cartes personnalisées ) et la création de contenu (quêtes, dialogues, etc.) ou d'histoires interactives . L'IA a aussi été employée dans les arts littéraires , par exemple pour aider à surmonter le syndrome de la page blanche , à trouver l'inspiration ou à réécrire des passages. En cuisine, certains prototypes de robots cuisiniers sont capables de goûter en temps réel , ce qui peut aider les chefs à analyser la composition et les saveurs des plats pendant la préparation.

L'utilisation du terme « art »

L’emploi du terme « art » pour désigner des œuvres générées par des logiciels d’intelligence artificielle a suscité un débat parmi les artistes, les philosophes, les chercheurs et d’autres spécialistes. Plusieurs observateurs estiment que qualifier d’« art » des images générées par machine remet en cause les caractéristiques traditionnelles de la création artistique humaine, telles que la créativité, le savoir-faire et l’intentionnalité. Les définitions actuelles de la véritable création artistique insistent souvent sur l’exigence d’intentions humaines, d’expérience et d’émotion personnelles, ainsi que sur le contexte historique et/ou artistique.

D'après une étude de la Bibliothèque nationale de médecine , les humains manifestent un préjugé naturel contre les œuvres d'art présentées comme générées par l'IA. Lorsqu'on a montré aux participants deux images comparables, dont une seule était présentée comme générée par l'IA, ils étaient plus enclins à attribuer une valeur artistique moindre à celle décrite comme artificielle. Cela suggère que les attitudes socioculturelles peuvent influencer la perception de la valeur artistique d'une image, indépendamment de ses autres caractéristiques visuelles.

In a 2023 report submitted to the Annual Convention of Digital Art Observers, Samuel Loomis wrote that the term "AI art" acknowledges its dual nature as a product of human guidance and machine-driven generative systems, when evaluating it by the same critical standards applied to traditional art.