
看到生成的图像时感受到的违和感
AI生成图像时,尝试忠实再现输入的文本。它的诚实执行和基于庞大数据库的学习,是人类无法企及的“神技”。然而,生成的图像结果往往无法吸引人心。这次,我们探讨AI生成的图像与摄影之间存在的违和感的原因。
从余白的角度
许多生成的图像正确地将文本转换为图像。大多数情况下没有多余的部分,换句话说,没有“余白”。“余白”是指有意或无意留下的空间或信息,而AI生成的图像充满细节,往往缺乏这种余白。虽然它忠实地传达信息,但其中不包含上下文。

Image by sora.KagiAke
然而,“余白”包含人类情感的细微差别和隐藏的意义。这种基于情感的上下文理解是没有身体的AI的最大弱点。AI在处理图像的字面上(文字上的)表现出色,但在创造包含情感深度和隐藏意义的余白方面,仍处于发展阶段。
余白中体现的人性
人类拍摄的照片包含超越图像记录的意义。照片可能包含不可预测性、情感的光谱,有时甚至被视为意外的“错误”的元素。所有这些偶然的产物都成为照片传达故事的一部分,给观众带来共鸣和想象的空间。

Image by ザワ
AI生成图像的过程
我们已经看到,AI生成的图像与摄影之间确实存在的违和感取决于两者之间是否有“余白”。通过了解AI生成图像的过程,可以更深入地理解这一点。
- 文本转换:AI将输入的词语转换为易于解释的概念。例如,输入“飞翔的鸟”时,AI将其理解为图像的元素,并转换为描绘海边风景或狗的基本指示。
- 从噪声生成图像:AI最初从完全随机的噪声(无特征的随机像素集合)开始,逐渐去除这些噪声,形成具体的图像。
- 图像解码:图像解码是将AI生成的图像数据转换为人类眼睛易于理解的形式的过程。例如,转换为JPEG或PNG等人类可见的图像格式,或调整图像的分辨率、色彩和内部表示。

Image by mars
AI与人类观点差异产生的不和谐
AI在生成图像时消除“噪声”的过程,基本上遵循数学计算和算法。去除噪声意味着使图像更接近现实,但这有其局限性。人类照片中自然存在的偶然性和情感的丰富性、不完美性,是计算难以捕捉的元素。在这一点上,AI与人类之间已经产生了对噪声的不同看法。
在生成图像时进行的细致处理中,AI完全理解并再现人类的复杂性和微妙的细节,目前的技术仍然困难。AI在字面解释和基于数据的输出方面表现出色,但尚未能完全模仿人类的经验和情感深度。为了提高精度,现在AI可能需要关注人类生活中看似无意义的“余白”。