Das Postkonkrete Bild

Fotografie verändert sich heute durch technische Komponenten, ähnlich wie viele andere Bereiche unserer Kultur und unseres Lebens. Das zeigt sich in einer aktuellen Debatte zwischen Joan Fontcuberta und Boris Eldagsen. Ich habe an anderer Stelle darüber berichtet. Mich interessiert beim Einsatz von KI weniger der Streit um Trainingsmaterial und weniger eine ontologische Einordnung von Bildern. Mich interessiert die Struktur des Prozesses. In diesem Licht möchte ich hier ein neues Projekt skizzieren.

Kurzbeschreibung des Projekts: Ausgangspunkt sind Fotografien. Klassisch oder digital, aber Fotografie, wie wir sie traditionell verstehen, ein Abbild von etwas, das in der Welt war. Diese Fotografien werden durch Claude analysiert, das Ergebnis ist eine Beschreibung des Bildes. Mit dieser Beschreibung generiert ein Bildmodell, ich nutze dafür z-image-base, ein neues Bild. Ergänzend schreibt ein weiteres Sprachmodell, in meinem ist das Mistral, ein Gedicht.

Die Konstellation

So entsteht eine Konstellation mit drei Rollen. Die Fotografie übernimmt die Rolle des Abzubildenden. Die Bildbeschreibung übernimmt die Rolle des latenten Bildes, also dessen, was früher in der Emulsion eingeschrieben war oder als Bildinformation im Sensor lag. Das generierte Bild übernimmt die Rolle, die früher der fertig entwickelten Fotografie zukam.

An dieser Stelle liegt dennoch ein Schiefstand vor: ein latentes Bild enthält das Bild bereits vollständig. Die Entwicklung holt nur hervor, was schon da ist. Eine Bildbeschreibung andererseits enthält kein Bild. Sie enthält eine Möglichkeit, bzw. viele mögliche Bilder. Das am Ende generierte Bild bleibt nur ein Echo. Manchmal ein stärkeres, manchmal aber auch ein leiseres.Und diese Differenz schafft eine Form von Entfremdung.

Am Prozess selbst sind mehrere Instanzen beteiligt. Ein Fotograf nimmt ein Bild auf. Claude generiert daraus die Bildbeschreibung. Diese Bildbeschreibung ist janusköpfig: sie basiert auf einem Prompt, vielleicht sogar auf auf einem erweiterten Kontext. Und sie dient selbst als Prompt. z-image-base generiert daraus ein neues Bild. Den letzten Schritt kann ich auch durch eine andere Ergebnisstruktur ersetzen, etwa durch ein Gedicht. Dann steht am Ende wieder ein Sprachmodell statt eines Bildmodells.

Wem gehört das Bild

In einer derartigen Konstellation stellt sich nun die Frage der Autorschaft. Sie verteilt sich auf mehrere Instanzen, und keine davon trägt die alleinige Urheberschaft. Das Ergebnis hängt vom Fotografen ab, der das Ausgangsbild gewählt hat. Es hängt von der Qualität der Bildbeschreibung ab. Es hängt vom Prompt ab, der diese Beschreibung steuert und es hängt vom Bildmodell ab und von der Person, die die Generierung konfiguriert.

Hier kehrt die Debatte vom Anfang zurück: Fontcuberta beschreibt KI-Bilder als algorithmische Fotografie. Er erkennt den Unterschied im Herstellungsprozess an, hält ihn aber für letztlich unerheblich. Die KI beschreibt er als Pfropfung (ein gärtnerisches Bild, bei dem ein Trieb auf einem fremden Stamm wächst und von ihm zehrt), die sich auf die Fotografie legt und sie von innen verändert. Eldagsen hat darauf geantwortet und besteht auf der Trennung. Für ihn ist das eigentliche Medium der latente Raum des Modells, der Prompt dessen Steuerung, und das Ergebnis nennt er Promptografie. Prompt-Arbeit ist damit Autorschaft, doch sie bleibt von der fotografischen unterschieden. In Begrifflichkeiten des Projekts: was ist das latente Bild? Wieviel Kontingenz darf es enthalten? Oder vielleicht besser: wie wenig darf es enthalten?

Der Prozess macht aber noch etwas anderes: er demokratisiert das Bild. Es gehört nicht mehr einer Instanz allein, es gehört in gewisser Weise allen. Ich publiziere als Fotograf eine Bildbeschreibung statt eines fertigen Bildes. Beliebige Menschen können daraus eigene Bilder generieren. Diese Öffnung hat aber einen Preis. Jede Generierung bleibt nur ein Echo und erzeugt die Entfremdung, von der oben die Rede war. Das Original entstand in einem bestimmten Moment, an einem bestimmten Ort, mit einer bestimmten Person. Das Modell kennt die Kategorie der Situation, den konkreten Augenblick kennt es nicht. Aber ganu mit dieser Fixierung auf die Kategorisierung wird die Übertragbarkeit hergestellt. Demokratisierung und Entfremdung gehören damit zusammen. Und genauso, wie Software-Entwicklerinnen früher Java-Code geschrieben haben und sich nun mit der Formulierung passender Prompts befassen, genauso wie bei Autoren Texte inzwischen interaktiv und explorativ mit der KI entstehen, genauso gehen die Bildautoren nun dazu über, Bilder mittels KI-Anweisungen zu erstellen. Oder erstellen zu lassen. Für den Preis der Entfremdung.

Was ich mit postkonkret meine

Entfremdung verweist auch auf eine Veränderung in der Referenzialität. Die Spur eines Gegenstands war Teil der Fotografie. Dass KI-generierte Bilder keine Spur in sich tragen, scheint mir dennoch zu einfach. Nur, welche Spur ist in generierten Bildern denn enthalten?

Konkrete Poesie erweitert den Referenzbegriff vom Gegenstand auf seine Eigenschaften, auf Klang, Textur, Gewicht, Dynamik. Postkonkret meint eine weitere Erweiterung, bzw. eine Verschiebung. Die Referenz liegt nicht mehr in der Welt der Gegenstände und ihrer Eigenschaften, sie liegt nun in einer Region eines KI-Modells. Diese Region ist mit einem Konzept von Gegenständen und ihren Beziehungen verbunden, und aus ihr speisen sich die generierten Bilder und Gedichte. Ich kann diese Region nicht analytisch benennen. Ich weiß nicht, wie sie aussieht. Ich kann sie mit Prompts ausloten und Vermutungen über sie anstellen. Benennen lässt sich, dass es solche Gebiete in den Modellen gibt und dass generierte Texte und Bilder sich auf sie beziehen. Genau diese Gebiete möchte ich in diesem Projekt als ästhetisches Display in den Fokus nehmen. Postkonkrete Sprache lotet diese Region aus. Generierte Texte weisen das auf. Und Postkonkrete Bilder weisen diese Regionen als Repräsentanten der Kategorie der fotografierten Szene aus.

Ein Beispiel: Die Reisende

Ein Beispiel: Ausgangspunkt ist eine Fotografie, die während einer Zugfahrt entstanden ist. Zu sehen ist eine unbekannte Reisende, wie sie sich im Zugfenster spiegelt, während draußen die Umgebung vorbeizieht.

Daraus erzeugt Claude nun eine Bildbeschreibung.

A colour photograph taken from inside a moving train, framed in portrait orientation. The composition centres on a woman seen from behind, her long blonde hair catching the light and partially dissolving into the reflections on the window glass. She wears a grey sweatshirt and sits close to the window, her body occupying the right half of the frame. The window itself is the dominant formal element: its surface simultaneously reflects the interior and transmits the exterior, layering the woman’s reflected image over a passing urban landscape of mid-rise modernist office buildings, dense green foliage, and a pale blue sky. Scratch lines run diagonally across the glass, adding a fine graphic structure to the layered image. The photograph belongs to the tradition of candid urban photography, close in sensibility to the work associated with European street photography of the late twentieth century. The aesthetic is quiet and contemplative, the palette muted and cool. The depth of field is shallow, rendering the exterior scene soft and the woman’s figure present but also partially absorbed into the glass. The image captures a transient moment of urban transit, where the boundary between inside and outside, between body and reflection, becomes visually permeable.

Und aus dieser Beschreibung generiert z-image-base wiederum ein neues Bild.

Das generierte Bild ist plausibel und zugleich verschoben. Diese Verschiebungen lassen sich benennen. Das Glas am Zugfenster spiegelt und lässt zugleich durchblicken. Die Beschreibung benennt diese Gleichzeitigkeit ausdrücklich, das Modell liest die Scheibe dennoch als Spiegelfläche und verliert die Überlagerung der beiden Raumebenen. Der Aufnahmestandpunkt liegt im Inneren des Zuges, dicht hinter der Frau, ein Körper im selben Raum. Das Modell hat keinen Standpunkt und keinen Körper, es erzeugt eine Außenperspektive und schaut auf die Szene. Der Moment auf dieser Strecke mit dieser Person bleibt einmalig. Das Modell kennt die Situation einer Frau am Zugfenster, den Augenblick kennt es nicht. Zu sehen ist ein Repräsentant einer ganzen Klasse von Bildern, die durch die Bildbeschreibung kategorisiert wurde.

Aus derselben Beschreibung generiert Mistral zuletzt ein Gedicht, ein postkonkretes Gedicht. Es beschreibt das Foto nicht. Es bewegt sich in der semantischen Nachbarschaft der Beschreibung und macht diese Nachbarschaft als Sprache sichtbar.

durch die Stadt
im Waggon

der Rücken einer Reisenden
Strähnen im Licht

grauer Stoff
die Scheibe als

spiegelt sich
überlagert von

Bürogebäude im
grünes Blätterdach

blasses Blau
Kratzer schräg

feine Linien über
gedämpfte Farben

kühle Töne
der Hintergrund

unscharf
die Grenze zwischen

Innen und Außen
wird durchlässig

Hier ist es Sprache, als Echo der Region im Raum der Möglichkeiten.

Was bleibt

Die Frage vom Anfang, ob KI-Bilder Fotografien sind, führt mitten in ein komplexes Miteinander von Autorschaft, Beteiligung und Referenzialität, das sich der eindeutigen Unterscheidung entzieht. Vielleicht entsteht hier eine eigene Kategorie visueller Objekte, die eine Beziehung zur Fotografie aufweisen und zugleich Unterschiede in sich tragen. Das latente Bild der Fotografie enthält den Augenblick. Die Bildbeschreibung enthält eine Möglichkeit. Zwischen beiden liegt die Entfremdung, die bleibt. Das generierte Bild ist ein Echo des Originals, das Gedicht ein Echo der Beschreibung. In jedem Echo hört man, was fehlt, und genau dieses Fehlen führt das Projekt vor.

Am Ende kehrt das Wort latent zurück, mit dem auch die aktuelle Debatte arbeitet. Die Fotografie hat ihr latentes Bild, das Modell hat seinen latenten Raum. Das Projekt bewegt sich zwischen beiden und macht die Region des Modells als ästhetisches Display sichtbar. Der Betrachter liest, generiert und vergleicht – und wird so selbst Teil des Prozesses.

94