Un anno fa Apple commercializzava il Vision Pro negli Stati Uniti. Daniele Dalledonne è sviluppatore specializzato nel mondo Apple e che ha un rapporto molto particolare con il visore a causa dei problemi che ha alla vista fin dalla nascita. Questo post originariamente è stato pubblicato su Linkedin.
Io, Cyborg
Sono nato con alcune patologie congenite alla vista che mi hanno reso la vita un po’ complicata, ma mi hanno anche dato l’opportunità di adattarmi, sviluppando dei super poteri. Ho trascorso la mia infanzia incapace negli sport che richiedevano l’uso di palle o palline, e infatti giocavo a scacchi. Per tutta la durata degli studi, dalle elementari all’università, non ho mai visto cosa i professori scrivessero alla lavagna, e anche quando mi sforzavo a stare in prima fila, non riuscivo mai a seguire il filo. Sono però diventato molto bravo a copiare, dal vicino di banco, dai libri, dai bigliettini. Non potevo guidare una moto o avere una patente di guida, ma sono diventato sommozzatore, mi sono buttato con il paracadute, ho volato con un aliante. Gli oculisti mi dicevano che avrei dovuto imparare il linguaggio braille, ma al posto fisso nelle liste protette ho preferito studiare Ingegneria Informatica (con i bigliettini), aprire partita IVA per fare siti web nel 1995 e poi fondare una società che da 25 anni sviluppa app mobile, dando lavoro a 18 persone.
Tutto questo senza mai raccontare molto alle persone come vedessi o quali problemi comportasse la mia vista. Almeno fino ad oggi.
Cominciamo.
Che cos’è il 3D?
Sono nato vedendo principalmente da un solo occhio, il destro, con un visus (misurato con la scala di lettere che vi fa leggere l’oculista) di circa 3 su 10, le prime tre righe della tabella. Né miope, ipermetrope o astigmatico, nulla che si possa correggere con gli occhiali. Analogamente l’occhio sinistro, ma con un visus di 0,1 su 10 che corrisponde indicativamente a saper leggere, con molta fatica, le prime due righe della tabella ma a una spanna dal tabellone.
Malus guadagnato è la perdita della tridimensionalità o perdita della percezione della profondità, e di conseguenza l’incapacità di percepire la distanza degli oggetti, come una palla che ti viene addosso. Niente sport come il calcio, una schiappa a ping-pong, già meglio il biliardo quando si voleva saltare scuola.
L’intelligenza artificiale di Tesla
Il primo adattamento che sviluppa il cervello per arginare questa lacuna è la stessa tecnica che utilizza Tesla per la sua guida autonoma avendo solo una telecamera frontale, non due come sarebbe più facile immaginare.
Nella vista stereoscopica, quella umana ma anche quella che utilizza Oculus per i suoi visori di realtà virtuale per comprendere lo spazio e i movimenti della testa, il nostro cervello (e l’AI) esegue dei calcoli trigonometrici sfruttando lo sfasamento di posizione che c’è tra due immagini che osservano lo stesso identico punto. Maggiore è lo sfasamento, più preciso è il calcolo, pertanto gli oggetti più vicini sono quelli che vediamo con una profondità più marcata (così mi dicono!) mentre i panorami sono sostanzialmente immagini piatte, come osservare una fotografia.
Per me è tutto una fotografia, ma il cervello ha sviluppato una tecnica di stima della distanza basandosi sul tempo, osservando il cambiamento di posizione e dimensione di un oggetto in movimento, riesce a ottenere una buona stima di velocità e traiettoria che si traduce nella capacità di stimarne la distanza e soprattutto di attivare il nostro sistema nervoso per evitare una palla durante una partita a dodgeball, o afferrarla se si tenta di giocare a basket, come per anni ho tentato di fare. Molto più difficile fare tutto questo calcolo se gli oggetti sono piccoli e molto veloci come una pallina da tennis che non riesci a vedere oltre l’altra metà del campo.
Qualcuno potrebbe dire che Tesla non è stata molto lungimirante a copiare il mio algoritmo… ma l’AI di Tesla funziona allo stesso modo, per calcolare distanze e dimensioni delle vetture e delle strade di fronte a sé, con la differenza che il nostro cervello non è nato per fare questo compito, mentre gli algoritmi di Tesla e le sue telecamere sono state pensate esattamente per lavorare così.
È tutto pixelato
La degenerazione maculare è una malattia che quando compare è solitamente progressiva, ma nel mio caso è congenita e fortunatamente stabile. Quello che fa, in modo molto semplificato è ridurre la definizione della nostra vista, un po’ come se confrontassimo una foto realizzata con l’ultimo modello di iPhone e quelle che facevamo 10 anni fa.
L’immagine che vediamo è sempre la stessa, ma perdiamo nitidezza, la ricchezza dei colori (chiamata gamma cromatica) e la brillantezza (intervallo dinamico) soprattutto quando ci sono variazioni molto ampie date dall’intervallarsi di luce e buio (high dynamic range, HDR per gli amici). Il paragone più semplice da fare è che le immagini sembrano stilizzate, gli oggetti mantengono la loro forma e dimensione, ma appaiono semplificate.
Il calcolo delle probabilità
Ne parlavo con un oculista molti anni fa, durante un esame approfondito, e alla fine abbiamo convenuto che il mio visus è la somma di quello che i miei occhi vedono e quello che il mio cervello crede di vedere.
La dimostrazione la faccio tutte le volte che devo sforzarmi a leggere tra la terza e la quarta riga del tabellone dell’oculista perché se nella riga precedente ho letto determinate lettere, le escludo dalla possibilità che si possano ripresentare nella riga successiva, riducendo il campione delle possibilità e aumentando le probabilità di indovinare attraverso l’intuito.
Se ad esempio ho letto la lettera N e nella riga successiva intuisco una forma simile, con un peso maggiore su uno dei lati, o nella zona centrale, per esclusione penserò alla lettera H, quella che si avvicina di più, e non a una M che è sbilanciata verso il basso o una E che è molto più corposa.
Non ce ne rendiamo conto, ma la nostra esistenza è basata sul calcolo statistico, inconsciamente nella maggior parte dei casi, di dove mettiamo un piede quando camminiamo e delle strategie di mitigazione dell’errore che elaboriamo nel caso in cui la statistica fallisca. Me ne accorgo proprio osservando chi cammina, perché la maggior parte delle persone guarda con una certa costanza dove mette i piedi, vuoi per evitare di calpestare qualche sorpresa in città, o non inciampare in un sentiero di montagna.
In una vista sana, il passaggio tra guardare a terra e rendersi conto di ciò che ci ricorda è abbastanza facile, ma chi ha poche risorse come nel mio caso, deve prendere delle decisioni come ridurre la soglia di rischio della camminata per concentrarsi su altre fonti di rischio camminando in mezzo alle persone, o semplicemente per godersi la vista guardando il panorama della montagna, non il suo sentiero. E infatti spesso inciampo, o sbatto contro gli spigoli, ma è un rischio calcolato che mi permetto quando non devo attraversare un burrone.
Avendo affinato alcuni metodi di analisi dell’immagine, ho sviluppato una serie di bonus features (diciamo così) anche professionali. Ad esempio mi capita di riconoscere con facilità la differenza tra due colori HEX che variano di un solo valore, come #AACCFF e #AACCFE e di saper leggere abbastanza bene testi a monitor con font di 5 pixel di altezza, a volte anche 4.
La nostra CPU ha capacità limitate
Questa cosa che il cervello si sforza di rimediare, attraverso il calcolo, a quello che non vede, mi ha fatto capire come il nostro cervello abbia delle capacità cognitive limitate, e come tutti noi, non solo chi ha difficoltà come me, spendiamo energie mentali nello svolgere determinate azioni. In un contesto casalingo il nostro cervello è allenato a muoversi con disinvoltura, ma paracadutati a Times Square in orario di punta, con infiniti stimoli visivi e sonori, l’orientamento inizia a pesare sul nostro cervello. In un corpo sano e giovane, dove tutti i sensori funzionano al meglio, l’operazione richiede poche risorse, ma in una persona anziana, che vede e sente poco, il cervello si deve sforzare a elaborare strategie di difesa, di orientamento, di comprensione dell’ambiente, e il risultato è l’effetto “rinco” (nome scientifico).
Il sensore rotto
La retinopatia è una patologia che determina l’impossibilità della nostra retina, o di alcune sue parti, di percepire la luce. Può insorgere per svariati motivi, anche lesioni, classico (e terrificante) è osservare il sole a occhio nudo. A me è andata abbastanza bene perché la mia retina è danneggiata nella vista periferica, riducendo così il cosiddetto campo visivo. L’effetto risultante è molto facile da spiegare, perché è come guardare attraverso un binocolo, riuscendo a vedere solo ciò che si ha di fronte e non dai lati.
Ma la vista periferica è così importante, che proprio le telecamere di Tesla implementano una vista “occhio di pesce” cioè in grado di vedere a 180°. Noi umani non siamo così fortunati, biologicamente parlando, anche perché a differenza di Tesla dove i suoi algoritmi analizzano ogni punto dell’immagine, noi umani ci concentriamo su un determinato punto di osservazione, spostandoci velocemente da punto a punto, seguendo un percorso che il nostro cervello chiede ai nostri occhi di seguire in base alle priorità del caso.
Un generatore di immagini
Quanti sanno che anche la nostra Natural Intelligence è dotata di una funzione generativa di immagini? Non sto parlando dei sogni, ma di una funzionalità che ci illude di vedere un oggetto reale, ma reale non è. Pensiamo alla nostra vista, ancora una volta, come una telecamera che riprende tutto quello che sta di fronte a noi. Una quantità enorme di informazioni che il nostro cervello elabora solo in parte, ad esempio solo nel nostro punto di vista principale. Il resto delle immagini non viene buttato, ma entra in un buffer con una priorità di calcolo differente. Quando entra in funzione, però, è in grado di fare due cose: mandare subito uno stimolo al nostro sistema nervoso per attivare lo spostamento degli occhi dove è necessario prestare attenzione, e anticipare la nostra vista generando l’immagine che aveva visto nell’istante precedente e collocandola nella timeline temporale attuale per permettere ai nostri sottosistemi di intervenire, ad esempio, per schivare un oggetto. Tutto in frazioni istantanee di tempo.
Ci sono esempi di retinopatia sviluppata in età molto giovane, guardando il sole, dove fisicamente l’occhio ha un buco nel centro della vista, ma nel tempo il cervello si abitua a riempire l’immagine annullando di fatto il problema. Oppure ci sono esperimenti che dimostrano la capacità di vedere oggetti apparire nella nostra vista periferica ma avendo l’occhio rivolto in un’altra direzione.
Io me ne accorgo dalle allucinazioni, (come nella AI) perché qualche volta mi capita di percepire un oggetto in avvicinamento e di reagire con uno scatto, per poi rendermi conto che non era vero.
Un impianto artificiale
La cataratta è forse uno dei problemi alla vista più noti, che solitamente colpisce la maggioranza di popolazione anziana e probabilmente dovuto al fatto che non siamo stati progettati per durare così tanto 🙂
Semplificato al massimo, la luce che entra neii nostri occhi converge attraverso l’iride, il diaframma che decide quanta luce far passare al cristallino, una lente molto morbida a geometria variabile che mette a fuoco le immagini e le proietta sulla retina, che trasforma la luce in segnali elettrici e via al cervello. Il cristallino spesso si sfasa, e con gli occhiali o un intervento laser si può sistemare, ma con l’età si irrigidisce impedendoci di mettere correttamente a fuoco sia da vicino che da lontano, e per finire si opacizza, facendo attraversare meno luce si ha l’effetto di forte fastidio per le luci, soprattutto quelle notturne, e in generale si dice che la vista sta invecchiando. In questi casi l’intervento più utilizzato è la rimozione del cristallino naturale e il suo rimpiazzo con uno artificiale, perdendo completamente la capacità di messa a fuoco variabile, obbligando l’uso di occhiali (per comodità bifocali) ma restituendo una vista nitida a chi non vedeva più.
Io sono nato con la cataratta e ci ho vissuto fino ai 18/20 anni perché all’epoca non si sapeva bene cosa mi sarebbe successo, sostituendomi i cristallini. Decisi di finire le scuole superiori ma quando iniziai l’università decisi di rischiare, partendo dall’occhio sacrificabile, quello che ci vedeva meno. Andò bene, e un anno dopo mi feci operare anche l’occhio migliore.
Ricordo benissimo il momento in cui uscii dall’ospedale, senza bendaggio. La luce mi travolse, le montagne che prima erano solo verdi, apparivano dai mille colori, l’asfalto che per me era una lastra grigia, appariva in tutti i suoi puntini di scala di grigio. Il mio visus aumentò da 3 a 4 decimi, raddoppiò da 0,1 a 0.2 (il doppio!) e il mondo mi sembrava completamente cambiato.
Ovviamente smisi di mettere a fuoco. Questa cosa mi colpì particolarmente nella lettura, resa estremamente difficile perché con le mie condizioni gli occhiali da lettura erano particolarmente faticosi da utilizzare e uso quelli da lontano raramente, al cinema o se guardo la tv. Tutti gli skills che ho imparato negli anni ho preferito riportarli nella mia nuova vista, e questo soprattutto perché la tecnologia mi ha aiutato moltissimo.
Large Language Model
Faccio fatica a leggere. In questo momento dovreste vedermi scrivere. Non immaginatevi l’uso di sistemi accessibili, non ho font particolarmente grandi, né utilizzo lo zoom. Semplicemente sono abituato a vedere sfuocato e poco nitido, ma tendenzialmente ben definito. Più o meno tutti nel tempo sviluppano la capacità di lettura veloce, quando scorriamo un testo noioso, o per necessità, ma non so quanti hanno mai pensato a come funzionano queste tecniche.
Attraverso l’apprendimento e la lettura, acquisiamo un modello molto largo del linguaggio (ehi, ChatGPT, scansati!) che unisce a un vocabolario più o meno esteso, la comprensione della grammatica, o se vogliamo, la sequenza di vocaboli e regole che compongono una frase. La nostra vista fa altrettanto, impara la forma che hanno queste parole, le pance delle lettere, la punteggiatura, le ripetizioni, come si alternano o si susseguono.
Nella lettura rapida si da importanza all’inizio di ogni parola, non serve leggerla tutta. Ad esempio la parola “rivoluzione” si può capire anche solo leggendo “rivoluz..” e se si aggiunge il contesto si riduce “rivol…”. Esiste un algoritmo chiamato “Bionic Reading” che promette di aiutare nella lettura veloce proprio agendo sui font, evidenziando solo le lettere di una parola ritenute essenziali per comprenderla. Ma a volte alcune parole possono essere completamente ignorate, non solo articoli o preposizioni, si può spulciare un paragrafo leggendo solo le parole o i verbi che in quella riga sembrano più importanti e in casi estremi, da power user, la lettura obliqua che pesca statisticamente una o due parole ogni riga di un paragrafo.
Vision Pro
Arrivati a questo punto vi devo confessare che questo è stato un grande lavoro di sintesi ma ora vediamo di affrontare la questione più importante.
Quando lo scorso giugno Apple presentò il Vision Pro, avevo intuito che qualcosa di grande era in arrivo. Dopo il Keynote, all’Apple Park ho avuto la fortuna di scambiare due parole con Phill Schiller, storico responsabile del marketing dai tempi di Steve Jobs. Gli feci questa domanda:
Credi che Vision Pro, in futuro, permetterà di vedere meglio dei propri occhi?
La risposta è stata affermativamente vaga, non sarebbe VP Marketing di Apple se mi avesse risposto svelando future intenzioni. Ma un anno dopo, alla vigilia del prossimo WWDC che introdurrà l’intelligenza artificiale nei nuovi iPhone, posso testimoniare che la risposta è SÌ.
Occhi bionici, vista cibernetica.
Sì. Vision Pro mi permette di vedere meglio dei miei miei occhi naturali. Ho dovuto attendere cinque mesi per procurarmi le lenti ZEISS/Apple per correggere la mia vista, ma mai avrei pensato di vivere questo tipo di esperienza.
Tecnicamente è un concetto molto semplice. I miei occhi non mettono a fuoco, ma dall’altra parte, quando sono a fuoco, riescono a vedere in modo sufficientemente nitido soprattutto se gli oggetti si trovano ad una distanza ravvicinata. Vision Pro ha degli schermi praticamente attaccati ai nostri occhi, ma le sue lenti interne sono state calibrate per una messa a fuoco a circa 1,2 metri di distanza. Senza lenti aggiuntive vedevo male, da vicino, da lontano, non trovando un punto di messa a fuoco l’esperienza era peggiore che con la mia vista naturale. Ma con le lenti aggiuntive il risultato, oh, ragazzi, è straordinario. Le telecamere di Vision Pro gestiscono la messa a fuoco da vicino, da lontano, ma soprattutto proiettano un’immagine ad alta risoluzione a pochi millimetri dagli occhi, regalandomi una fedeltà dei dettagli che non avevo mai percepito prima.
No, al momento non posso ancora fare concorrenza a Tiger Woods e i suoi strabilianti 15/10 di visus, ma… non so se sono riuscito a spiegare bene la cosa, questa cosa è senza senso, è fuori di testa, è destabilizzante e folle. Se domani volessi salire in bicicletta (questa cosa fate finta che non ve l’abbia mai scritta) e volessi ridurre la mia soglia di rischio e aumentare la mia fiducia nel muovermi in mezzo al traffico, dovrei indossare il Vision Pro per essere più sicuro di quando ci vado senza.
Io, cyborg, non so se questo sarà il futuro o se la cosa più importanti per l’umanità è rimanere umani, ma non vedo l’ora di provare il modello con più megapixel, più luminoso, più piccolo, più tutto… per andare oltre alla mia immaginazione e le mie capacità.
[WWDC24 Update]
Non ho saputo resistere, ho aggiornato Phil e mi ha confessato di aver vissuto un’esperienza simile alla mia con Vision Pro!