Aller au contenu
Oedipus King of AI

Note d'intention — Stéphane Lévy

Intention

À la croisée de trois routes

À la croisée de trois routes.

Trois routes se croisent dans ce film. La référence n'est pas innocente : c'est à un carrefour de trois routes qu'Œdipe a tué son père.

La première : l'intention artistique. Adapter Œdipe — le mythe le plus humain qui soit — au temps de l'intelligence artificielle.

La deuxième : la capacité de production massive de l'IA. La machine ne reproduit pas seulement : elle propose, dérape, accidente. À l'usage, elle surprend plus souvent qu'elle ne déçoit.

La troisième : le code. Faire un film avec l'IA ne suffisait pas. Il fallait que le code lui-même fasse partie de l'œuvre — non un atelier de prompts collés bout à bout, mais une architecture où la fabrique participe du sujet.

La question du modèle

L'objection est connue : l'IA reproduit des patterns, elle n'invente pas. C'est juste — et c'est aussi vrai pour nous. Nos vies, nos lectures, nos émotions sont des bases de données. Au moment d'écrire ou de filmer, nous activons, comme la machine, ce que nous avons appris à reconnaître.

Reste l'étincelle. L'humain serait seul capable de la faire jaillir, l'IA non. Et si l'étincelle venait de l'interaction de l'humain avec l'IA ? C'est justement quand l'IA travaille avec l'humain que les étincelles peuvent arriver.

Pendant la fabrication de ce film, j'ai vu l'IA produire des choses qui ressemblaient, étrangement, à un acte de création. Pas par magie. Par accident.

Œdipe dans la seconde partie du film, couronné, vêtu du costume né de l'accident — toge et demi-veston de velours.
Œdipe — l'image de référence de la seconde partie, au vêtement divisé.

Le brain dump

Un film commence dans la tête. On envisage, on imagine, on tient une vision — presque un rêve. Vient ensuite l'autre moitié : la transformer en images et en sons. Comment faire naître des images et des voix à partir de ce qui vit dans la tête ? Le cinéma y a répondu de mille façons ; chaque réalisateur a la sienne.

Pour un film fait avec l'IA, ce qui a fonctionné, c'est le brain dump — littéralement, vider sa tête. Et cela est passé, avant tout, par la voix. Là où un écrivain travaille par la main, ici la vision se sculpte en parlant — car évoquer une vision, la sculpter, c'est parler. Comme un réalisateur sur un plateau : il parle avec le chef décorateur, le chef opérateur, les acteurs, distribue des idées, des images, des références, de la musique.

Sur un tournage, beaucoup reste aussi non-dit — une humeur, une présence qui nourrit l'œuvre en silence. Mais la machine, elle, a besoin de matière à lire ; et la voix est le moyen le plus direct de livrer ce qu'on a dans la tête.

Viennent alors les outils. Le speech-to-text change la voix en texte ; le text-to-image, le text-to-video, l'image-to-video changent le texte en images et en mouvement. L'IA est, au fond, une chaîne de transformations — et le brain dump en alimente le premier maillon.

Je peux parler longuement, plusieurs minutes, pour décrire un plan, une qualité de lumière, une ambiance, un jeu d'acteur. Ce texte est analysé, synthétisé, résumé, puis l'IA me le renvoie sous forme de prompt. Du cerveau à la voix, puis de la voix au prompt : voilà le travail — un travail de sculpteur, qui taille le prompt dans le texte brut. L'IA excelle à structurer et hiérarchiser ce que la voix jette en vrac. Et la voix couvre un champ immense : en parlant, on brasse des idées, on hésite, on affine — on comprend un peu mieux ce qu'on veut dire, et on voit plus clair dans sa propre vision.

Le brain dump : transmettre à la machine le contenu de sa tête dans sa forme la plus brute, par le langage.

L'humain exprime sa vision, l'IA produit, l'humain réagit et choisit, la création vient du dialogue.