Das Postkonkrete Bild
Fotografie verändert sich heute durch technische Komponenten, ähnlich wie viele andere Bereiche unserer Kultur und unseres Lebens. Das zeigt sich in einer aktuellen Debatte zwischen Joan Fontcuberta und Boris Eldagsen. Ich habe an anderer Stelle darüber berichtet. Mich interessiert beim Einsatz von KI weniger der Streit um Trainingsmaterial und weniger eine ontologische Einordnung von Bildern. Mich interessiert die Struktur des Prozesses. In diesem Licht möchte ich hier ein neues Projekt skizzieren.
Ausgangspunkt sind Fotografien. Klassisch oder digital, aber Fotografie, wie wir sie traditionell verstehen, ein Abbild von etwas, das in der Welt war. Diese Fotografien werden durch Claude analysiert, das Ergebnis ist eine Beschreibung des Bildes. Mit dieser Beschreibung generiert ein Bildmodell, ich nutze dafür z-image-base, ein neues Bild. Ergänzend schreibt ein weiteres Sprachmodell, in meinem ist das Mistral, ein Gedicht.
Die Konstellation
So entsteht eine Konstellation mit drei Rollen. Die Fotografie übernimmt die Rolle der Welt, des Abzubildenden. Die Bildbeschreibung übernimmt die Rolle des latenten Bildes, also dessen, was früher in der Emulsion eingeschrieben war oder als Bildinformation im Sensor lag. Das generierte Bild übernimmt die Rolle, die früher der fertig entwickelten Fotografie zukam.
An dieser Stelle liegt eine Asymmetrie, die das ganze Projekt trägt. Ein latentes Bild enthält das Bild bereits vollständig. Die Entwicklung holt nur hervor, was schon da ist. Eine Bildbeschreibung enthält das Bild jedoch nicht. Sie enthält eine Möglichkeit. Aus einer Beschreibung lassen sich viele Bilder generieren, und keines davon ist die Entwicklung des einen Bildes. Das generierte Bild bleibt ein Echo. Diese Differenz erzeugt eine Entfremdung, die bleibt, auch wenn das Modell technisch perfekt arbeitet.
Am Prozess sind mehrere Instanzen beteiligt. Eine Fotografin trifft eine Entscheidung. Claude generiert die Bildbeschreibung. Ein Autor schreibt den Prompt, der diese Beschreibung steuert. z-image-base generiert daraus ein neues Bild. Den letzten Schritt kann ich auch durch eine andere Ergebnisstruktur ersetzen, etwa durch ein postkonkretes Gedicht. Dann steht am Ende wieder ein Sprachmodell statt eines Bildmodells.
Wem gehört das Bild
Damit stellt sich die Frage der Autorschaft. Sie verteilt sich auf mehrere Instanzen, und keine davon trägt die alleinige Urheberschaft. Das Ergebnis hängt vom Fotografen ab, der das Ausgangsbild gewählt hat. Es hängt von der Qualität der Bildbeschreibung ab, und damit von Claude. Es hängt vom Prompt ab, der diese Beschreibung steuert, und dieser Prompt lässt sich standardisieren, sodass er für viele Bilder gleich aussieht. Es hängt vom Bildmodell ab und von der Person, die die Generierung konfiguriert.
Hier kehrt die Debatte vom Anfang zurück, und sie hat zuletzt eine konkrete Gestalt bekommen. Fontcuberta hat sein Buch Immagini Latenti vorgelegt, in dem er KI-Bilder als algorithmische Fotografie fasst. Er erkennt den Unterschied im Herstellungsprozess an, hält ihn aber für letztlich unerheblich. Die KI beschreibt er als Pfropfung (ein gärtnerisches Bild, bei dem ein Trieb auf einem fremden Stamm wächst und von ihm zehrt), die sich auf die Fotografie legt und sie von innen verändert. Eldagsen hat darauf geantwortet und besteht auf der Trennung. Für ihn ist das eigentliche Medium der latente Raum des Modells, der Prompt dessen Steuerung, und das Ergebnis nennt er Promptografie. Prompt-Arbeit ist damit Autorschaft, doch sie bleibt von der fotografischen unterschieden.
Der Prozess macht aber noch etwas anderes: er demokratisiert das Bild. Es gehört nicht mehr einer Instanz allein, es gehört in gewisser Weise allen. Ich publiziere als Fotograf eine Bildbeschreibung statt eines fertigen Bildes. Beliebige Menschen können daraus eigene Bilder generieren. Diese Öffnung hat einen Preis. Jede Generierung bleibt ein Echo und erzeugt die Entfremdung, von der oben die Rede war. Das Original entstand in einem bestimmten Moment, an einem bestimmten Ort, mit einer bestimmten Person. Das Modell kennt die Kategorie, den Augenblick kennt es nicht. Demokratisierung und Entfremdung gehören damit zusammen. Und genauso, wie Software-Entwicklerinnen früher Java-Code geschrieben haben und sich nun mit der Formulierung passender Prompts befassen, genauso wie bei Autoren Texte inzwischen interaktiv und explorativ mit der KI entstehen, genauso geht die Bildautorin nun dazu über, Bilder mittels KI-Anweisungen zu erstellen. Oder erstellen zu lassen. Für den Preis der Entfremdung.
Was postkonkret meint
Entfremdung verweist auch auf eine Veränderung in der Referenzialität. Die Spur eines Gegenstands war Teil der Fotografie. Dass KI-generierte Bilder keine Spur in sich tragen, ist zu einfach. Aber welche Spur ist in generierten Bildern enthalten? Konkrete Poesie erweitert den Referenzbegriff vom Gegenstand auf seine Eigenschaften, auf Klang, Textur, Gewicht, Dynamik. Postkonkret meint eine weitere Erweiterung, bzw. eine Verschiebung. Die Referenz liegt nicht mehr in der Welt der Gegenstände und ihrer Eigenschaften, sie liegt nun in einer Region eines KI-Modells. Diese Region ist mit einem Konzept von Gegenständen und ihren Beziehungen verbunden, und aus ihr speisen sich die generierten Bilder und Gedichte. Ich kann diese Region nicht analytisch benennen. Ich weiß nicht, wie sie aussieht. Ich kann sie mit Prompts ausloten und Vermutungen über sie anstellen. Benennen lässt sich, dass es solche Gebiete in den Modellen gibt und dass generierte Texte und Bilder sich auf sie beziehen. Genau diese Gebiete möchte ich in diesem Projekt als ästhetisches Display in den Fokus nehmen.
Ein Beispiel: Die Reisende
Ein Beispiel: Ausgangspunkt ist eine Fotografie, die während einer Zugfahrt entstanden ist. Zu sehen ist eine unbekannte Reisende, wie sie sich im Zugfenster spiegelt, während draußen die Umgebung vorbeizieht.

Daraus erzeugt Claude nun eine Bildbeschreibung.
A colour photograph taken from inside a moving train, framed in portrait orientation. The composition centres on a woman seen from behind, her long blonde hair catching the light and partially dissolving into the reflections on the window glass. She wears a grey sweatshirt and sits close to the window, her body occupying the right half of the frame. The window itself is the dominant formal element: its surface simultaneously reflects the interior and transmits the exterior, layering the woman’s reflected image over a passing urban landscape of mid-rise modernist office buildings, dense green foliage, and a pale blue sky. Scratch lines run diagonally across the glass, adding a fine graphic structure to the layered image. The photograph belongs to the tradition of candid urban photography, close in sensibility to the work associated with European street photography of the late twentieth century. The aesthetic is quiet and contemplative, the palette muted and cool. The depth of field is shallow, rendering the exterior scene soft and the woman’s figure present but also partially absorbed into the glass. The image captures a transient moment of urban transit, where the boundary between inside and outside, between body and reflection, becomes visually permeable.
Und aus dieser Beschreibung generiert z-image-base wiederum ein neues Bild.

Das generierte Bild ist plausibel und zugleich verschoben. Diese Verschiebungen lassen sich benennen. Das Glas am Zugfenster spiegelt und lässt zugleich durchblicken. Die Beschreibung benennt diese Gleichzeitigkeit ausdrücklich, das Modell liest die Scheibe dennoch als Spiegelfläche und verliert die Überlagerung der beiden Raumebenen. Der Aufnahmestandpunkt liegt im Inneren des Zuges, dicht hinter der Frau, ein Körper im selben Raum. Das Modell hat keinen Standpunkt und keinen Körper, es erzeugt eine Außenperspektive und schaut auf die Szene. Der Moment auf dieser Strecke mit dieser Person bleibt einmalig. Das Modell kennt die Situation einer Frau am Zugfenster, den Augenblick kennt es nicht. Man könnte das noch optimieren, aber zur Demonstration des Prozesses sind Beschreibung und Bild ausreichend.
Aus derselben Beschreibung generiert Mistral zuletzt ein Gedicht, ein postkonkretes Gedicht. Es beschreibt das Foto nicht. Es bewegt sich in der semantischen Nachbarschaft der Beschreibung und macht diese Nachbarschaft als Sprache sichtbar.
durch die Stadt
im Waggonder Rücken einer Reisenden
Strähnen im Lichtgrauer Stoff
die Scheibe alsspiegelt sich
überlagert vonBürogebäude im
grünes Blätterdachblasses Blau
Kratzer schrägfeine Linien über
gedämpfte Farbenkühle Töne
der Hintergrundunscharf
die Grenze zwischenInnen und Außen
wird durchlässig
Was bleibt
Die Frage vom Anfang, ob KI-Bilder Fotografien sind, führt mitten in ein komplexes Miteinander von Autorschaft, Beteiligung und Referenzialität, das sich der eindeutigen Unterscheidung entzieht. Vielleicht entsteht hier eine eigene Kategorie visueller Objekte, die eine Beziehung zur Fotografie aufweisen und zugleich Unterschiede in sich tragen. Das latente Bild der Fotografie enthält den Augenblick. Die Bildbeschreibung enthält eine Möglichkeit. Zwischen beiden liegt die Entfremdung, die bleibt. Das generierte Bild ist ein Echo des Originals, das Gedicht ein Echo der Beschreibung. In jedem Echo hört man, was fehlt, und genau dieses Fehlen führt das Projekt vor.
Am Ende kehrt das Wort latent zurück, mit dem auch die aktuelle Debatte arbeitet. Die Fotografie hat ihr latentes Bild, das Modell hat seinen latenten Raum. Das Projekt bewegt sich zwischen beiden und macht die Region des Modells als ästhetisches Display sichtbar. Der Betrachter generiert, liest und vergleicht und wird so selbst Teil des Prozesses.
