Prompts visuels avec Gemini Omni : ce que Google vous dit enfin clairement
Vous tapez "une femme dans un café, ambiance tamisée" et vous obtenez une créature au sourire de reptile sous une lumière de bloc opératoire. Bienvenue dans la génération d'images par IA, mes amis. Google a décidé qu'il était temps de vous expliquer pourquoi, et surtout comment faire mieux.
Le géant de Mountain View vient de publier un guide officiel sur la rédaction de prompts pour la génération visuelle par intelligence artificielle. Officiellement, c'est calibré pour Gemini Omni, leur dernier modèle de création d'images et de vidéos, le plus avancé de leur gamme à ce jour. Officieusement, ces conseils valent pour à peu près n'importe quel outil d'IA générative. Autant en profiter.
Ce que Gemini Omni peut faire, et ce qu'il attend de vous
Gemini Omni génère des images et des vidéos d'aspect réaliste à partir de requêtes textuelles. Rien de magique là-dedans. Le modèle est puissant, il embarque des fonctions d'édition avancées, mais il ne lit pas dans vos pensées. Si votre prompt est vague, votre output sera vague. Logique, non ?
Google a donc listé ce qui manque systématiquement dans vos descriptions. Voici, noir sur blanc, ce que vous devez commencer à préciser.
Les cinq éléments que vous oubliez dans vos prompts
Le cadrage et le mouvement. "Grand angle", "gros plan", "plongée" ces mots ont un sens pour le modèle. Pour la vidéo, ne vous contentez pas de décrire ce que vous voyez : décrivez comment ça bouge. Travelling avant ? Plan fixe ? La caméra suit le personnage ou reste plantée là ? Précisez.
Le style visuel. "Réaliste", "cinématographique", "cartoon", "futuriste", "pictural"... L'IA comprend le langage courant, alors utilisez-le vraiment. Dites ce que vous voulez voir, pas ce que vous espérez vaguement obtenir. Plus vous êtes spécifique, moins vous perdez du temps à relancer le prompt six fois.
La lumière. D'où vient-elle ? Qu'est-ce qui l'émet, le soleil, un réverbère, une bougie, un écran ? Quelle atmosphère est-ce que ça crée ? Google insiste là-dessus, et à raison : la lumière, c'est 80 % de l'ambiance d'une image. L'ignorer dans votre prompt, c'est laisser la machine décider à votre place. (Et elle choisira mal, c'est presque garanti.)
Le décor et la géographie de la scène. Quel type de terrain ? Quels arbres, quels bâtiments, quels éléments en arrière-plan ? Une forêt de bouleaux et une forêt de pins ne racontent pas la même chose. Ces détails ne sont pas du remplissage : ils ancrent votre visuel dans quelque chose de cohérent.
L'action. Qui sont les personnages ? Qu'est-ce qu'ils font, exactement ? Comment bougent-ils ? Interagissent-ils entre eux, avec un objet, avec l'environnement ? Google pose la question frontalement : "Qui sont les personnages et les objets ? Comment bougent-ils et interagissent-ils ?" Si vous ne savez pas y répondre avant d'appuyer sur "générer", votre résultat vous le fera savoir.
Pourquoi ça change quelque chose, concrètement
Ces conseils ne sont pas réservés aux designers ou aux équipes créa. Ils s'adressent à toute personne qui utilise un outil d'IA visuelle, pour des visuels de réseaux sociaux, des illustrations éditoriales, des maquettes de campagne ou simplement pour gagner du temps sur la création de contenu.
La promesse de ces outils, c'est de transformer une idée en image en quelques secondes. Le problème, c'est que la plupart des gens ne formulent pas d'idée , ils formulent un vague espoir. Google vient de vous donner la méthode pour combler l'écart.
À vous de jouer. Littéralement.