Unsere Vorstellung von kreativer Arbeit ist doch recht unterschiedlich. [...] Eine Idee, eine Zeile Texteingabe und fertig ist das Bild. Das ist kreative Arbeit?
Also, ich sehe ja schon so in etwa, was du meinst (glaube ich jedenfalls). Wenn ich mal einen Bleistift und Papier in die Hand nehme und versuche, ein Foto abzuzeichnen (kommt leider zu selten vor), dann kann das schonmal ein paar Stunden dauern. Am Ende kommt was raus, was zumindest für meine Verhältnisse doch einigermaßen ansehnlich ist, auch wenn ich dann selbst sehe, dass da die Proportionen nicht stimmen, die Helligkeitsverteilung falsch ist, die Linien wirr sind (gelockte Haare sind ein Übel, ich sag’s dir!), usw. und trotzdem bin ich stolz wie Oskar und kann mir das Bild dann stundenlang anschauen und kenne da dann jede Linie in- und auswendig.
Bei einem Bild, das ich mir in 2 Minuten zusammenklicken kann, hätte ich so eine emotionale Bindung höchstwahrscheinlich nicht.
Ich glaube, unsere Vorstellung von kreativer Arbeit ist gar nicht mal so unterschiedlich. Der Unterschied liegt vielleicht eher darin, für wie aufwendig wir die Bilderzeugung per “KI” halten und wie zielgerichtet man ein Bild erstellt.
Wenn man
kein konkretes Ziel hat und spielt einfach mit dem Generative Fill für ein paar Minuten rum und behält diejenigen Ergebnisse, die gut aussehen, dann kann man natürlich am Ende das Bild präsentieren und sagen, seht her, das habe ich in 5 Minuten gemacht. Und da gebe ich dir recht, da ist der Anteil an kreativer Arbeit nicht allzu hoch. Für mich macht es aber einen entscheidenden Unterschied, ob man ein Bild im Wesentlichen durch Zufall erhält, oder ob man am Ende genau das Bild hat, das man vorher schon die ganze Zeit im Kopf hatte.
Als Beispiel könnte man die Bilder von
Erik Johansson nehmen. Angenommen, du hast eine Idee für so ein surreales Foto, wie beschreibst du das mit einer Zeile Text? Da müsstest du dir doch Mund fusselig reden und das reicht dann wahrscheinlich immer noch nicht (wieso will man eigentlich ein
Bild per
Texteingabe erzeugen? Das ist doch Programmierer-Denke!)
Beim Generative Fill oder Stable Diffusion & Co ist mir immer noch zu viel Zufall im Spiel und man hat zu wenig Kontrolle über das Ergebnis, um genau ein bestimmtes Ergebnis erzeugen zu können (so geht es mir jedenfalls). Wenn man diese Kontrolle irgendwann einmal hat und man kann tatsächlich genau das Bild, wie man es sich vorgestellt hat, damit erzeugen, dann wäre das für mich immer noch kreative Arbeit (die hat ja dann bereits stattgefunden, noch bevor man den Computer überhaupt einschaltet). Ob ich dann Pinsel oder Computer benutze, um das Bild in meinem Kopf auf die Leinwand bzw. den Bildschirm zu bringen, ist doch dann nicht wirklich relevant, das sind unterschiedliche Werkzeuge, die unterschiedliches handwerkliches Geschick benötigen.
Die Versuche, dein Bild zu rekonstruieren habe ich übrigens nicht gespeichert, ich habe aber nochmal ein paar neue Versuche gestartet. Wenn man also das Boot im Vordergrund komplett auf einmal entfernt, reicht die Auflösung nicht. Hier ein 100%-Ausschnitt von einem verbliebenen Mast. Die feinen Linien und der untere Teil des Masts sind noch original, die verschwommenen Teile sind durch das Generative Fill erzeugt:
Bei den Booten im Hintergrund kann dann schonmal sowas rauskommen (100%-Ausschnitt):
Aber gut, das kann man auch mir ankreiden, weil ich die Funktion "falsch" benutze, den Umgang damit muss man ja auch erstmal lernen. Nach einigen Versuchen kann man schon auch bessere Ergebnisse erzielen:
Evtl. oute ich mich hiermit als Landratte. Ich glaube, beim vorderen Boot hätte ich vermutlich nicht eine Variante wählen sollen, die hinten auch spitz zuläuft (wo wäre hier der Motor?), aber es hat sich halt so gut eingefügt. Fehler gibt es dennoch (abgeschnittenes Fenster, Reling ist plötzlich weg, dubiose Schatten und Lichter, etwas chaotisches Heck beim anderen Boot, ...).
Aber auch hier, ich bin auf die zufälligen Ergebnisse des Generative Fills angewiesen. Wenn ich das Boot kenne und das tatsächliche Heck nachbauen wollte, wüsste ich nicht, was für einen Text ich da eintippen sollte, um das passende Heck zu bekommen.
Dann noch zur Fluke (Danke für dein Beispiel, ich kannte das Wort überhaupt nicht (ich hätte es "Walflosse" genannt

)). Ich bekomme immer so was in der Art (hier zwei der Vorschläge):
Ich fand alle seine Vorschläge nicht wirklich prickelnd. Da könnte man jetzt evtl. auch noch mit weiteren Teilfüllungen versuchen, das Ergebnis umzubiegen, aber jedenfalls ist das keine Sache von "einfach mal schnell einen Text eintippen und fertig ist das Bild". In diesem konkreten Fall hätte ich das bei Pixabay schon eher, da tippe ich in der Tat ein paar Stichworte ein und hätte bei den Ergebnissen ein paar passende Varianten, ich müsste sie halt noch selbst ins Bild einmontieren. Das Vorgehen ist ja in beiden Fällen praktisch das Gleiche (Text eingeben, Bild abholen), einmal kommen die Bilder halt von der Stange, beim anderen sind sie maßgeschneidert (nur dass der Schneider in diesem Fall hier ziemlich gepfuscht hat).