Das Gefühl der Unstimmigkeit bei generierten Bildern
Die Bildgenerierung durch KI versucht, den eingegebenen Text getreu wiederzugeben. Diese Ehrlichkeit in der Ausführung und das Lernen auf Basis einer riesigen Datenbank sind Fähigkeiten, die über das menschliche Erkenntnisvermögen hinausgehen – eine „göttliche Fähigkeit“, die für uns Menschen unmöglich ist. Dennoch ziehen die Ergebnisse der generierten Bilder oft nicht die menschliche Aufmerksamkeit auf sich. In diesem Artikel gehen wir den Gründen für das Gefühl der Unstimmigkeit zwischen KI-generierten Bildern und Fotografie auf den Grund.
Aus der Perspektive der Leere
Viele generierte Bilder wandeln den Text korrekt in ein Bild um. Oftmals fehlt es ihnen an Überflüssigem, oder anders gesagt, es fehlt die „Leere“. „Leere“ bezieht sich auf absichtlich oder unabsichtlich hinterlassene Räume oder Informationen. Die von KI erzeugten Bilder sind oft detailreich und es fehlt ihnen an dieser Leere. Sie vermitteln Informationen treu, jedoch ohne Kontext.
Jedoch wird „Leere“ oft mit menschlichen emotionalen Nuancen und versteckten Bedeutungen gefüllt. Diese emotionale, kontextuelle Verständigung ist ein Bereich, in dem KI, die keinen Körper hat, am meisten Schwächen zeigt. KI ist gut darin, Bilder wörtlich zu verarbeiten, aber in Bezug auf die Erzeugung emotionaler Tiefe oder versteckter Bedeutungen in der Leere ist sie noch in der Entwicklung.
Die Menschlichkeit, die in der Leere erscheint
Fotos, die von Menschen aufgenommen werden, enthalten mehr als nur die Aufzeichnung von Bildern. Fotos können Unvorhersehbarkeit, ein Spektrum von Emotionen und manchmal Elemente enthalten, die als unbeabsichtigte „Fehler“ angesehen werden. All diese zufälligen Elemente werden Teil der Geschichte, die das Foto erzählt, und bieten dem Betrachter Raum für Empathie und Vorstellungskraft.
Der Prozess der Bildgenerierung durch KI
Wir haben gesehen, dass das Gefühl der Unstimmigkeit zwischen KI-generierten Bildern und Fotografie davon abhängt, ob es „Leere“ zwischen beiden gibt. Um das besser zu verstehen, werfen wir einen Blick auf den Prozess der Bildgenerierung durch KI.
- Textumwandlung: KI wandelt die eingegebenen Worte in leicht interpretierbare Konzepte um. Zum Beispiel, wenn der Text „ein Vogel, der am Himmel fliegt“ eingegeben wird, versteht die KI dies als Bildbestandteil und wandelt es in grundlegende Anweisungen zur Darstellung einer Küstenlandschaft oder eines Hundes um.
- Bildgenerierung aus Rauschen: KI beginnt mit vollständig zufälligem Rauschen (einer Ansammlung von zufälligen Pixeln ohne Merkmale) und entfernt dieses Rauschen schrittweise, um ein konkretes Bild zu formen.
- Bilddekodierung: Die Bilddekodierung ist der Prozess, bei dem die von der KI generierten Bilddaten in eine für das menschliche Auge verständliche Form umgewandelt werden. Dies kann die Umwandlung in Bildformate wie JPEG oder PNG umfassen, sowie die Anpassung der Bildauflösung, Farben und internen Darstellungen.
Die Dissonanz, die durch unterschiedliche Ansichten von KI und Mensch entsteht
Der Prozess des „Rauschens“ bei der Bildgenerierung durch KI folgt im Wesentlichen mathematischen Berechnungen und Algorithmen. Das Entfernen von Rauschen bedeutet, das Bild realistischer zu machen, jedoch gibt es dabei Grenzen. Die Zufälligkeit und emotionale Fülle, die in menschlichen Fotos natürlich vorhanden sind, sind schwer durch Berechnungen zu erfassen. An diesem Punkt entsteht bereits eine unterschiedliche Sichtweise auf Rauschen zwischen KI und Mensch.
In den vielen kleinen Prozessen, die bei der Bildgenerierung durchgeführt werden, ist es mit der heutigen Technik schwierig, dass KI die Komplexität und die subtilen Nuancen des Menschen vollständig versteht und reproduziert. KI ist hervorragend in der wörtlichen Interpretation und datengestützten Ausgabe, aber sie kann die Tiefe menschlicher Erfahrungen und Emotionen noch nicht vollständig nachahmen. Um die Genauigkeit zu erhöhen, könnte es jetzt erforderlich sein, dass KI sich den scheinbar bedeutungslosen „Leerstellen“ im menschlichen Alltag annähert.