magazine
2024.09.04

Explorer la « différence » entre l'IA et la photographie | Knowledge #15

2024-01-difference-between-ai-and-photography-cover-image

La sensation d'étrangeté en voyant des images générées

La génération d'images par IA tente de reproduire fidèlement le texte saisi. La sincérité à exécuter ce qui est demandé et l'apprentissage basé sur une vaste base de données sont des « compétences divines » qui dépassent la portée cognitive humaine, impossibles pour nous. Pourtant, les images générées ne parviennent souvent pas à captiver l'esprit humain. Cette fois, nous explorons les raisons de la sensation d'étrangeté entre les images générées par IA et les photographies.

Du point de vue de l'espace négatif

La plupart des images générées transforment correctement le texte en image. Beaucoup d'entre elles sont dépourvues de futilité, autrement dit, elles manquent d'« espace négatif ». L'« espace négatif » désigne l'espace ou l'information laissée intentionnellement ou non, et les images créées par IA débordent de détails, souvent dépourvues de cet espace. Elles transmettent fidèlement l'information mais n'incluent pas de contexte.

2024-01-difference-between-ai-and-photography-image-5

Image par sora.KagiAke

Cependant, l'« espace négatif » contient des nuances émotionnelles humaines et des significations cachées. Cette compréhension contextuelle basée sur les émotions est le domaine le plus faible pour une IA sans corps. L'IA excelle dans le traitement littéral des images, mais elle est encore en développement pour créer un espace négatif incluant une profondeur émotionnelle et des significations cachées.

L'humanité révélée dans l'espace négatif

Les photographies prises par des humains contiennent plus que l'enregistrement d'une image. Elles incluent l'imprévisibilité, le spectre des émotions, et parfois des éléments considérés comme des « erreurs » non intentionnelles. Tous ces produits du hasard font partie de l'histoire que la photographie raconte, offrant de l'empathie et de l'espace pour l'imagination au spectateur.

2024-01-difference-between-ai-and-photography-image-9

Image par ザワ

Le processus de génération d'images par IA

Nous avons vu que la sensation d'étrangeté entre les images générées par IA et les photographies dépend de la présence ou non d'« espace négatif ». Comprenons mieux en découvrant le processus de génération d'images par IA.

  1. Conversion de texte : L'IA convertit les mots saisis en concepts faciles à interpréter. Par exemple, en saisissant le texte « oiseau volant dans le ciel », l'IA le comprend comme un élément d'image et le transforme en instructions de base pour dessiner un paysage côtier ou la silhouette d'un chien.
  2. Génération d'image à partir de bruit : L'IA commence par un bruit complètement aléatoire (un ensemble de pixels aléatoires sans caractéristiques) et élimine progressivement ce bruit pour former une image concrète.
  3. Décodage de l'image : Le décodage de l'image est le processus de conversion des données d'image générées par l'IA en une forme compréhensible par l'œil humain. Par exemple, en les convertissant en formats d'image visibles tels que JPEG ou PNG, ou en retouchant la résolution, la couleur et la représentation interne de l'image.


2024-01-difference-between-ai-and-photography-image-12

Image par mars

La dissonance créée par les différences de perception entre l'IA et l'humain

Le processus de suppression du « bruit » lors de la génération d'images par IA suit essentiellement des calculs mathématiques et des algorithmes. Éliminer le bruit signifie rapprocher l'image de la réalité, mais cela a ses limites. L'imprévisibilité naturelle, la richesse émotionnelle et l'imperfection des photographies humaines sont des éléments difficiles à capturer par le calcul. À ce stade, une différence de perception du bruit apparaît déjà entre l'IA et l'humain.

Dans les traitements minutieux effectués lors de la génération d'images, il est difficile pour l'IA de comprendre et de reproduire complètement la complexité humaine et les nuances subtiles avec la technologie actuelle. L'IA excelle dans l'interprétation littérale et les sorties basées sur les données, mais elle ne peut pas encore imiter complètement l'expérience humaine et la profondeur émotionnelle. Pour améliorer la précision, ce dont l'IA a besoin maintenant, c'est peut-être de s'attacher aux « espaces négatifs » apparemment insignifiants de la vie quotidienne humaine.