Si s'inspirer d'une image c'est du vol, au bout d'un moment, va falloir définir ce qu'est une publication. Un artiste a le droit de faire une parodie de Mickey ou de s'inspirer (voire d'imiter) le style de Disney. Les artistes se sentent spoliés quand on peut mettre leur nom dans la prompt et que l'IA imite leur style, je comprends le sentiment, et il faut qu'on en discute en tant que société, mais appeler ça un vol est incorrect. Aux vus de comment les règles sont faites aujourd'hui, ces pratiques sont légales.
Après, j’aimerai bien lire dans son code pour voir comment elle “peint”. Est ce que l’ordi fait la moyenne des couleurs des images et le replique. Ou est que qu’elle est capable d’analyser l’oeuvre, de voir le mouvement du pinceau et l’epaisseur.
Il y a deux process séparés là: l'apprentissage d'un style et la génération d'une image.
La technique vers laquelle tout le monde est allé pour la génération d'image ne ressemble pas à ce que les humains font et est très étrange: c'est un débruiteur. On lui donne image composée de pixels aléatoires et on lui dit "ça c'est l'image d'une île paradisiaque avec un perroquet au premier plan mais elle est très bruitée, enlève du bruit" et au bout de plusieurs étapes il faut une image parfaitement débruitée. Ce n'est pas un process humain où on applique des touches locales de peinture ou des traits. Elle va par exemple garder des pixels bleus là où le ciel devrait être et rouges là où le perroquet devrait être et va tenter de discerner l'objet qu'on lui a dit être présent, un peu comme quelqu'un qui cherche des formes dans la nuages.
L'apprentissage, pas contre, fait très clairement émerger des concepts de haut niveau. Ça fait des années qu'on sait que les VAE par exemple sont capable d'extraire des concepts abstraits de par exemple des visages. Là ça se fait par apprentissage de débruitage sur des couples image-texte. Par exemple si tu lui dis "portrait d'une personne avec des lunettes" le modèle va apprendre que les pixels "anormaux" autour des yeux ne sont pas forcément à remplacer par des pixels de peau, et va comprendre les règles selon lesquelles ils forment des lunettes cohérentes.
Est ce qu’elle part d’un squelette 3D, place les éléments, puis la lumière et ensuite des corps, applique les proportions.
Elle ne le fait pas spontanément mais avec ControlNet on peut lui donner en entrée un squelette 3D (et y a des outils de composition d'image précisant où se trouve tel ou tel objet) https://www.redsharknews.com/controlnet-another-step-change-in-ai-image-generation
Là je te décris les modèles par diffusion, qui ont donné les meilleurs résultats récemment, mais d'autres techniques existent qui donnent des résultats un peu moins bon mais utilisent des techniques très différentes et pourraient un jour revenir sur le devant de la scène. Par exemple une technique est de transformer la prompt en un "vocabulaire" artistique (les guillemets sont là car c'est juste une série de vecteur, pas des mots en langage naturel) qui vient décrire chaque portion de l'image. Tu passes par une représentation intermédiaire de l'image à générer sous forme de grille où chaque grille contient une information abstraite du genre "cheveux, haut du crane, blonds, longs, style peinture à l'huile, relfets de soleil" etc. Et un "peintre" final vient transformer cette grille en une image cohérente. On a dans ce cas là une composition explicite avant la génération.
Le workflow que tu décris est possible, mais est souvent fait par les humains qui travaillent avec ces modèles. Il donnerait surement de meilleurs résultats, le problème est qu'il est difficile de générer les informations d'entrainement pour ça: des couples textes-images on en a, mais des images couplée au squelette 3D des personnes et à une description spatiale de la composition et lumière, on n'a pas.
Ou est ce qu’elle fait une moyenne d’images ?
Il n'y a pas de "moyenne d'image", je pense que c'est à cause de cette idée fausse qu'on parle de vol d'oeuvres. J'imagine qu'on peut expliquer l'apprentissage des premiers layers comme une moyenne mais très vite le modèle apprend autre chose et apprend justement les différences de style et la cohérence générale d'une image. Par exemple là voici plusieurs images de la prompt "eye close-up, comics, stylized" (et une série de mots génériques pour augmenter la qualité). La prompt ne change pas (mon modèle est SD-1.5, pas le plus récent ni le meilleur). Tu vois qu'il sort des images cohérentes dans des styles différents mais ne fait pas une moyenne. En fait il essaye de discerner, à partir du bruit de départ qu'on lui donne, le style qui est probablement derrière ce bruit: