Se avete visto i social invasi da montagne di immagini disegnate con lo stile dello Studio Ghibli, quello degli anime di Hayao Miyazaki e Isao Takahata, la ragione è molto semplice: OpenAI ha rilasciato l’aggiornamento a ChatGPT con un nuovo modello di generazione di immagini molto avanzato che sostituisce l’integrazione precedente di DALL-E 3 e offre capacità notevoli come l’elaborazione multimodale e un miglior rendering del testo. Solo quest’ultima sarebbe da sola una notizia importante, dato che per la prima volta una GenAI è in grado di generare testo in maniera sostanzialmente perfetta, sia a caratteri di stampa che come calligrafia. Ma è (quasi) passata in secondo piano, visto lo stile da anime che sta conquistando la rete.
Ecco cosa è successo
Dallo scorso 25 marzo GPT-4o permette di creare molto rapidamente delle immagini più dettagliate e accurate per gli utenti dei piani Plus, Pro e Team. Gli utenti Enterprise ed Education avranno accesso a breve mentre gli utenti Free, che all’inizio dovevano essere compresi nel lancio anche se limitati a generare fino a 3 immagini al giorno, sono stati momentaneamente “sospesi” per via del carico sui server di OpenAI. Infatti, come ha detto Sam Altman (che come immagine di profilo su X ha messo una versione “ghiblizzata” di se stesso) “Le immagini in ChatGPT sono molto, molto più popolari di quanto ci aspettassimo. E avevamo aspettative piuttosto alte“. Tanto da porre dei limiti all’utilizzo di GPT-4o almeno per i primi tempi: “È super divertente vedere le persone amare le immagini create con ChatGPT ma le nostre GPU si stanno fondendo”.

La domanda a questo punto diventa: come mai GPT-4o adesso è in grado di fare tanto di più? La nuova versione, che è stata integrata dentro ChatGPT direttamente perché Altman ritiene che sia l’AI a dover capire cosa fare e non l’utente a scegliere di volta in volta le diverse funzioni, è stata completamente rivoluzionata. GPT-4o ha infatti diverse funzionalità avanzate che lo distinguono dal suo predecessore. La più importante dal punto di vista grafico è che il modello adesso può gestire fino a 20 oggetti diversi contemporaneamente mantenendo le corrette relazioni tra di essi, rendendolo, così, ideale per la generazione di scene complesse.
Il modello è stato inoltre addestrato per avere una sorta di “consapevolezza contestuale”, che gli consente cioè di basarsi su immagini e testo nel contesto della chat, garantendo coerenza durante le iterazioni. Inoltre, e questa è la novità che viene sfruttata da chi desidera rifare il suo selfie nello stile dello Studio Ghibli, GPT-4o eccelle nell’apprendimento contestuale, permettendo agli utenti di caricare immagini affinché l’AI le analizzi e incorpori i dettagli nel rendering che sta generando.
Per tutti questi motivi che abbiamo visto i social sono letteralmente stati invasi da un’invasione di immagini rifatte con lo stile dello Studio Ghibli, che ha una estetica molto riconoscibile e “rilassante” (non a caso era stata clonata a suo tempo da Lofi Girl, per esempio, nell’ambiente della musica chill-out), ponendo anche domande significative sul diritto d’autore sia in fase di addestramento di questi modelli (addestrati verosimilmente con tutti o quasi tutti gli anime dello Studio Ghibli) che nello sfruttamento delle stesse da parte degli utenti finali.

Un abile calligrafo
Un’altra cosa che contraddistingue GPT-4o da praticamente tutti i modelli di GenAI esistenti è la capacità di generare del testo sia a caratteri tipografici che di scrittura a mano in modo praticamente perfetto. Era una delle limitazioni più forti delle GenAI sino a questo momento: l’incapacità quasi patologica di non riuscire a scrivere se non un guazzabuglio di lettere e numeri spesso sbagliati. Adesso, oltre ad aver eliminato quasi tutti gli errori e le imprecisioni anatomiche (dalle mani con sei dita alle braccia “sbagliate” o le bocche e gli occhi fatti male) è caduto anche quest’ultimo limite. Le immagini possono essere di altissima qualità e con uno stile fotorealistico, con delle scritte perfette. E una cosa che non mancherà di avere un fortissimo impatto ad esempio nella creazione di illustrazioni e magari anche di fumetti e manga, perché no.
Inoltre, per fare tutto questo adesso non servono neanche più dei prompt complessi. Basta chiedere “Crea una immagine nello stile dello Studio Ghibli”, per esempio, e la foto o il disegno che è stato caricato viene reinterpretato ed elaborato in uno massimo di due-tre minuti (a causa della complessità e del livello di dettaglio delle immagini prodotte) con l’accuratezza nelle scritte, nei particolari e nella struttura che come abbiamo visto è molto superiore a prima. Altra cosa importante, grazie alla contestualizzazione si possono poi chiedere piccole o grandi modifiche con facilità, facendo delle iterazioni con la generazione delle immagini simile a quelle che si possono fare con il testo.
Le principali funzionalità di GPT-4o per la generazione di immagini |
---|
Rende accuratamente il testo all’interno delle immagini |
Consente agli utenti di perfezionare le immagini attraverso la conversazione mantenendo uno stile coerente |
Supporta suggerimenti complessi con un massimo di 20 oggetti diversi |
Può generare immagini basate su riferimenti caricati |
Crea immagini utilizzando le informazioni dai dati di addestramento di GPT-4o |
Un’altra cosa interessante è che GTP-4o non è solo per “dilettanti allo sbaraglio” ma anche per i professionisti dell’immagine. Infatti, se da un lato il nuovo sistema di generazione di immagini in ChatGPT offre un’esperienza utente semplificata, con gli utenti che come abbiamo visto possono semplicemente chiedere al modello di creare un’immagine con dettagli specifici o selezionare l’opzione “Crea immagine” nel compositore; dall’altra, però, il sistema consente anche la personalizzazione delle immagini con requisiti precisi, inclusi il rapporto d’aspetto, colori esatti utilizzando codici esadecimali e sfondi trasparenti. Insomma, volendo si possono sfruttare funzionalità super-professionali oltre che affidarsi alla “creatività” di ChatGPT.

Rimane una curiosità: tutto questo vuol dire che DALL-E è finito e scomparirà? No, almeno non nel prossimo futuro. OpenAI ha mantenuto DALL-E come opzione separata per gli utenti che preferiscono le sue capacità specifiche. DALL-E sarà accessibile tramite un GPT dedicato, consentendo agli utenti di passare da un modello all’altro in base alle loro esigenze. Questa decisione garantisce che gli utenti possano ancora beneficiare dei punti di forza unici di DALL-E, come la sua capacità di generare immagini stilizzate o artistiche, avendo al contempo accesso alle funzionalità avanzate di GPT-4o.
Alcune fonti di questo articolo:
- https://lifehacker.com/tech/chatgpt-got-image-generation-upgade
- https://techcrunch.com/2025/03/25/chatgpts-image-generation-feature-gets-an-upgrade/
- https://the-decoder.com/openai-brings-native-image-generation-to-chatgpt/
- https://bgr.com/tech/openai-brings-gpt-4o-image-generation-to-chatgpt-and-sora/
- https://www.searchenginejournal.com/openai-rolls-out-gpt-4o-image-creation-to-everyone/542910/