La sensazione di stranezza nelle immagini generate
La generazione di immagini da parte dell'AI cerca di riprodurre fedelmente il testo inserito. La sincerità nell'eseguire ciò che viene detto e l'apprendimento basato su un vasto database rappresentano una 'tecnica divina' che supera la portata della cognizione umana, qualcosa di impossibile per noi. Tuttavia, spesso le immagini generate non riescono ad attrarre l'interesse umano. In questa occasione, esploreremo le ragioni della sensazione di stranezza tra le immagini generate dall'AI e le fotografie.
Dal punto di vista dello spazio vuoto
Molte immagini generate convertono correttamente il testo in immagini. Spesso non vi è spreco, o in altre parole, manca lo 'spazio vuoto'. Lo 'spazio vuoto' si riferisce a spazi o informazioni lasciate intenzionalmente o non intenzionalmente, e le immagini create dall'AI sono spesso piene di dettagli, mancando di questo spazio vuoto. Sebbene trasmettano fedelmente il significato come informazione, non includono contesto.
Tuttavia, lo 'spazio vuoto' incorpora sfumature emotive umane e significati nascosti. Questa comprensione contestuale basata sulle emozioni è un'area in cui l'AI, priva di corpo, è più debole. L'AI è abile nel trattare le immagini in modo letterale, ma è ancora in fase di sviluppo nel creare spazi vuoti che includono profondità emotiva e significati nascosti.
L'umanità che emerge nello spazio vuoto
Le fotografie scattate dagli esseri umani contengono significati che vanno oltre la semplice registrazione delle immagini. Le fotografie possono includere elementi di imprevedibilità, uno spettro di emozioni e talvolta elementi considerati 'errori' non intenzionali. Tutti questi prodotti del caso diventano parte della storia che la fotografia racconta, offrendo empatia e spazio per l'immaginazione allo spettatore.
Il processo di generazione delle immagini da parte dell'AI
Abbiamo visto che la sensazione di stranezza tra le immagini generate dall'AI e le fotografie dipende dalla presenza o meno di 'spazio vuoto'. Approfondiamo la comprensione conoscendo il processo di generazione delle immagini da parte dell'AI.
- Conversione del testo: L'AI converte le parole inserite in concetti facilmente interpretabili. Ad esempio, inserendo il testo 'uccello che vola nel cielo', l'AI lo comprende come elemento dell'immagine e lo converte in istruzioni di base per disegnare un paesaggio marino o un cane.
- Generazione dell'immagine dal rumore: L'AI parte da un rumore completamente casuale (un insieme di pixel casuali e senza caratteristiche) e gradualmente rimuove questo rumore per formare l'immagine concreta.
- Decodifica dell'immagine: La decodifica dell'immagine è il processo in cui l'AI converte i dati dell'immagine generata in una forma comprensibile all'occhio umano. Ad esempio, viene convertita in formati di immagine visibili come JPEG o PNG, e vengono effettuati ritocchi sulla risoluzione, i colori e la rappresentazione interna dell'immagine.
La dissonanza creata dalle differenze di prospettiva tra AI e umani
Il processo di eliminazione del 'rumore' durante la generazione delle immagini da parte dell'AI segue essenzialmente calcoli matematici e algoritmi. Rimuovere il rumore significa avvicinare l'immagine alla realtà, ma ci sono dei limiti. La casualità e la ricchezza emotiva, l'imperfezione naturalmente presenti nelle fotografie umane, sono elementi difficili da catturare con i calcoli. A questo punto, già emerge una differenza di prospettiva sul rumore tra AI e umani.
Nei dettagliati processi di generazione delle immagini, è difficile per l'AI comprendere e riprodurre completamente la complessità e le sfumature sottili degli umani con la tecnologia attuale. L'AI è eccellente nell'interpretazione letterale e nell'output basato sui dati, ma non è ancora in grado di imitare completamente l'esperienza umana e la profondità delle emozioni. Per migliorare la precisione, ciò di cui l'AI potrebbe aver bisogno ora è di avvicinarsi a quel 'spazio vuoto' apparentemente insignificante della vita quotidiana umana.