Partiamo da un semplice meme che gira da tempo in rete: quanti megabyte di dati ci sono in uno spermatozoo? La risposta giusta è che non c’è una risposta giusta. Nel senso che paragonare direttamente lo storage di informazioni binarie dei computer e quelle del nostro genoma è un errore concettuale. Per capire perché è necessario fare un paio di passaggi molto interessanti, che ci permettono di parlare sia del perché gli esseri viventi sono incredibili (davvero!) e le nuove frontiere dell’archiviazione dei dati nel DNA sintetico (perché lo stiamo cercando di fare davvero).
Partiamo dall’inizio.
La promessa del DNA sintetico
In ogni nostra cellula è contenuto un metro lineare di DNA, compresso in una struttura di appena due nanometri. Cioè una struttura tridimensionale “appattita” nella forma di una doppia elica. Questa straordinaria capacità di impacchettamento dell’informazione supera di gran lunga le nostre attuali tecnologie di archiviazione dati. Ma quanto possiamo davvero paragonare il DNA a un sistema di storage digitale?

Da quando James Watson e Francis Crick scoprirono nel 1953 la struttura della doppia elica del DNA, questo ha trasformato la nostra comprensione delle malattie, la progettazione di terapie e persino l’allevamento di colture più resistenti e produttive. Ora emerge una nuova applicazione: l’archiviazione dei dati nel DNA sintetico.
Il concetto è relativamente semplice: utilizzare molecole di DNA sintetico per codificare e memorizzare informazioni digitali. Il codice binario viene tradotto nell’alfabeto genetico A, C, G e T (Adenina, Citosina, Guanina e Timina). Ogni posizione nel filamento potrebbe teoricamente memorizzare due bit, ma nella pratica si usa un bit per base.
Una densità straordinaria
I vantaggi sono evidenti: un grammo di DNA può potenzialmente memorizzare petabyte di dati con una stabilità di migliaia di anni nelle giuste condizioni. È stato calcolato che tutte le informazioni su Internet, stimate in circa 120 zettabyte, potrebbero essere memorizzate in un volume di DNA delle dimensioni di una zolletta di zucchero (cioè un centimetro cubo circa). Una soluzione che potrebbe aiutare a gestire la prevista crisi dell’archiviazione dati, con esigenze che si avvicinano a 200 Zetabyte nel 2025 e uno YottaByte entro il 2030. Quanti dati sono? Molti di più di quelli che sappiamo dove archiviare.
Un punto di svolta nella ricerca è arrivato con il team dell’Università di Washington e Microsoft, che ha costruito il primo prototipo automatizzato capace di scrivere, conservare e leggere dati nel DNA. Un dispositivo da tavolo che, seppure con prestazioni iniziali modeste (5 byte in 21 ore per scrivere la parola “HELLO”), ha dimostrato la fattibilità dell’approccio integrato. L’obiettivo ora è raggiungere una velocità di scrittura di 2 gigabit al secondo, che equivarrebbe a circa 2 miliardi di basi al secondo. Un salto quantico rispetto all’attuale mercato globale del DNA sintetico, stimato in circa 10 terabasi all’anno.
L’innovazione più promettente arriva dalla sintesi enzimatica, che sostituisce i tradizionali metodi chimici utilizzando l’enzima TdT (terminal deoxynucleotidyl transferase). Le aziende DNA Script e Molecular Assemblies stanno già commercializzando sistemi automatizzati che sfruttano questo approccio, eliminando la necessità di solventi tossici come l’acetonitrile. Un team cinese guidato da Long Qian alla Peking University ha recentemente sviluppato un metodo per scrivere informazioni sul DNA 350 volte più velocemente, utilizzando template di DNA prefabbricati e reazioni di metilazione controllate per codificare i dati binari.
Multipli del byte
Prefissi SI | Prefissi binari | ||||
---|---|---|---|---|---|
Nome | Simbolo | Multiplo | Nome | Simbolo | Multiplo |
chilobyte | kB | 10³ | kibibyte | KiB | 2¹⁰ |
megabyte | MB | 10⁶ | mebibyte | MiB | 2²⁰ |
gigabyte | GB | 10⁹ | gibibyte | GiB | 2³⁰ |
terabyte | TB | 10¹² | tebibyte | TiB | 2⁴⁰ |
petabyte | PB | 10¹⁵ | pebibyte | PiB | 2⁵⁰ |
exabyte | EB | 10¹⁸ | exbibyte | EiB | 2⁶⁰ |
zettabyte | ZB | 10²¹ | zebibyte | ZiB | 2⁷⁰ |
yottabyte | YB | 10²⁴ | yobibyte | YiB | 2⁸⁰ |
ronnabyte | RB | 10²⁷ | |||
quettabyte | QB | 10³⁰ |
L’impatto ambientale ed economico
La densità di storage del DNA ha implicazioni rivoluzionarie anche sul piano della sostenibilità. Come evidenziato dalla ricerca, un data center grande quanto un campo da calcio potrebbe essere rimpiazzato da un server DNA delle dimensioni di un pallone da calcio. Questo non solo ridurrebbe drasticamente il consumo di suolo e risorse, ma eliminerebbe anche la necessità di mantenere complessi sistemi di raffreddamento. Un risparmio energetico gigantesco, oltre che di spazio. Il DNA è stabile a temperatura ambiente e può conservare informazioni per migliaia di anni senza degradarsi, a differenza dei nastri magnetici che richiedono condizioni ambientali controllate e devono essere periodicamente sostituiti.
Ma con grandi capacità arrivano grandi responsabilità. Quando un drive DNA raggiungerà la capacità di sintetizzare l’equivalente di 20 genomi umani completi al minuto, si apriranno scenari inediti. La stessa tecnologia che permetterà di sviluppare contromisure biologiche contro nuovi patogeni in pochi minuti potrà essere utilizzata anche per creare quei patogeni. Il flusso di informazioni tra digitale e biologico significa che ogni problema di sicurezza IT si trasferirà anche nel mondo della biologia, richiedendo una nuova consapevolezza delle possibilità e dei rischi.
Il futuro è più vicino di quanto pensiamo
Il campo sta avanzando rapidamente grazie alla collaborazione tra università, aziende e laboratori governativi di tutto il mondo, riuniti nella DNA Data Storage Alliance fondata nel 2020. I potenziali clienti spaziano dagli studi cinematografici agli Archivi Nazionali americani, fino a colossi come Boeing. Le prime applicazioni commerciali si concentreranno probabilmente sull’archiviazione a lungo termine, dove la stabilità del DNA offre vantaggi unici. George Church dell’Istituto Wyss di Harvard suggerisce che inserendo il DNA codificato in batteri resistenti, che possono riprodursi e “riparare” il loro materiale genetico gratuitamente, l’informazione potrebbe essere preservata per centinaia di milioni di anni. Una prospettiva che trasforma radicalmente il concetto stesso di conservazione dei dati.

Ma torniamo al nostro meme: c’è un’altra considerazione da fare. Uno spermatozoo umano contiene metà dei dati del DNA di un individuo, perché devono fecondare l’uovo e creare un nuovo DNA. Inoltre, gli spermatozoi non hanno tutti esattamente lo stesso mezzo DNA fotocopiato, ma lievi variazioni mutazioni per consentire la differenziazione tra individui. Si tratta di Petabyte di dati? Sì e no.
Il punto però è che il DNA non conserva le “informazioni” sotto forma di bit. Le quattro basi A, T, G e C sono solo l’inizio. Infatti, il DNA non è un semplice pacchetto di informazioni chiuso e definito, ma un ingrediente molecolare tridimensionale di cui conosciamo ancora relativamente poco. Ad esempio, la nostra comprensione dei trascritti di microRNA e delle loro modalità di funzionamento è ancora limitata.
Il DNA degli esseri viventi è solo uno dei componenti di una trasformazione che “fiorisce” e si sviluppa in uno spazio tridimensionale tramite una serie di reazioni biochimiche. Il DNA quindi non può essere ridotto alla mera sequenza di basi azotate: è un sistema complesso che comprende reazioni chimiche, mutazioni e una fondamentale struttura tridimensionale. Detto in altre parole: se registrassimo solo le combinazioni della quattro basi azotate come una sequenza numerica non avremmo tutte le informazioni necessarie per fecondare un uovo e creare un essere umano.
Per quantificare realmente l’informazione contenuta in uno spermatozoo usando come unità di misura quella con la quale digitalizziamo le informazioni per i computer, sarebbe più appropriato considerare la dimensione complessiva dei database che contengono il sequenziamento del DNA, includendo tutti i metadati e le informazioni contestuali necessarie per comprenderne il funzionamento. I formati più classici per registrare il sequenziamento del DNA di una persona sono FASTQ e BAM, e contengono moltissimi metadati e altre informazioni ridondanti (annotazioni, qualità del sequenziamento, informazioni sulla posizione e struttura) che arrivano a pesare alcune decine di Gigabyte.
Quante informazioni ci sono in realtà?
Immaginiamo però che sia possibile davvero misurare direttamente i dati contenuti in uno spermatozoo. Il meme da cui siamo partiti diceva 37,5 Megabyte per spermatozoo e 16 Terabyte per ogni singola eiaculazione. Le cose secondo noi non stanno esattamente così.
Per capire quante informazioni la natura ha messo in uno spermatozoo, proviamo a fare un conteggio diverso. Il genoma umano è lungo circa 3,1 miliardi di coppie di basi per gli uomini e 3,2 miliardi per le donne. Poiché il cromosoma X è tre volte più lungo di un cromosoma Y, le donne hanno un genoma totale più grande di quello degli uomini.
Ogni coppia di basi può essere un legame delle due nucleobasi: un legame adenina-timina o un legame guanina-citosina. Non ci sono altri incroci possibili, però: le uniche combinazioni ammesse sono solo AT, TA, CG e GC. Queste quattro possibili combinazioni non sono bit, usano una base diversa, ma se vogliamo esprimerle in bit (che sono informazioni digitali codificate come binarie, BInary digiT cioè 1 e 0) possiamo usare due bit per descriverle perché con 2 bit possiamo rappresentare 2² = 4 stati diversi. Quindi, se facciamo il conto, questo vuol dire 6,2-6,4 gigabit in totale, ovvero circa 750-800 Megabyte per avere una copia completa ed esatta del genoma umano in un singolo spermatozoo.
A questo punto ci potrebbe venire il dubbio che, vista la natura delle informazioni contenute nel DNA, con moltissime ripetizioni, è possibile ridurre le dimensioni del file comprimendolo. E questo porterebbe, ad esempio, ai 37,5 Megabyte indicati del meme. Ottimo, peccato però che non funzioni così. Infatti, i dati contenuti nel genoma non sono realmente bit, cioè non si comportano come tali. Primo perché il genoma umano è espresso in base quattro e non in base due. E poi perché le informazioni del DNA non possono essere compresse, nonostante ci siano tantissime parti ridondanti. Non si può zippare il DNA anche se contiene lunghissime sequenze identiche, perché il nostro corpo semplicemente non funziona così. Una cellula di uno spermatozoo non contiene solo le variazioni, ma contiene tutto il set di cromosomi con tutte le singole coppie di basi presenti.
Descrizione | Calcolo | Risultato |
---|---|---|
Dimensione genoma (coppie di basi) | Uomo: ~3,1 miliardi Donna: ~3,2 miliardi | Differenza: ~0,1 miliardi |
Bit necessari per coppia di basi | 2² possibili combinazioni (AT,TA,CG,GC) | 2 bit per coppia |
Dimensione genoma in bit | 3,1 miliardi × 2 bit | 6,2 gigabit |
Conversione in Megabyte | 6,2 gigabit ÷ 8 bit/byte ÷ 1024 MB/GB | ~750-800 MB |
Range spermatozoi per eiaculazione | Min: 50 milioni Max: 500 milioni | Media ponderata: 200 milioni |
Dati totali per eiaculazione (teorici) | 750 MB × 200 milioni | 150 Petabyte |
Variazione genetica tra spermatozoi | 1-4% | |
Informazione unica effettiva | 150 PB × (~4% variazione) | ~6 Petabyte |
Qui è importante anche capire che le coppie di basi in tutte le cellule spermatiche non sono copie esatte l’una dell’altra. Se lo fossero, tutti i bambini prodotti da una coppia sarebbero esattamente gli stessi. Detto in un altro modo: mentre la maggior parte dei nuclei cellulari sono prodotti dalla mitosi, che fa una copia esatta del DNA, le cellule sessuali (gameti) sono prodotte dalla meiosi, dove solo metà del DNA, scelto casualmente all’interno di ogni coppia di cromosomi, viene utilizzato per creare una cellula con solo cromosomi singoli.
Quindi, con una singola eiaculazione (che dura pochi secondi: in media cinque) viene trasferita una quantità enorme di dati non compressi, ma che sono praticamente sempre gli stessi, con una variazione compresa tra 1% e 4% (le differenze tra uno spermatozoo che porta un DNA maschile o femminile, XY o XY, e con la media di variazioni e mutazioni).
In conclusione, quante informazioni vengono trasmesse? Qui dobbiamo introdurre una variabile impossibile da definire con precisione che rende questo conto (e di conseguenza anche il meme) molto approssimativo. Perché il numero di spermatozoi in un’eiaculazione umana varia tanto: secondo la medicina si va da 50 a 500 milioni di spermatozoi. Fermiamoci alla media rilevata dagli studi medici: 200 milioni. 750-800 Megabyte moltiplicato 200 milioni fa 150 Petabyte di dati, che però sono praticamente tutti uguali. Se infatti analizziamo il contenuto di questi 150 Petabyte, vediamo che i dati sono in effetti 150 Petabyte (cioè i bit che digitalizzano le quattro coppie AT, TA, CG e GC), ma il quantitativo reale di informazione codificata (cioè quel che c’è effettivamente scritto dentro) è molto meno, circa 6 Petabyte, cioè un ordine di grandezza inferiore.
Se volete un esempio, è come un CD in cui siano stati registrati tutti i 74 minuti di audio che può contenere, ma solo 7 minuti sono di musica mentre gli altri 67 sono di silenzio.
Il wetware della vita
Torniamo alla biologia. Il DNA fa parte di quello che viene definito “wetware”: non è né software né hardware, ma un elemento di un ambiente umido e vivo, composto da numerosi altri elementi in continua interazione. La vera sfida tecnologica sarà riuscire a replicare le sue incredibili capacità di impacchettamento dell’informazione, superiori a quelle dei nostri attuali microchip. Capendo però che seguono regole e modi diversi rispetto a quelli dei nostri computer.
La vera magia del DNA degli esseri viventi, infatti, risiede nella sua duplice natura. Da un lato, garantisce una notevole continuità nella trasmissione dell’informazione genetica, come dimostrato dalla conservazione di sequenze geniche invariate per milioni di anni in diverse specie animali. Dall’altro, questa continuità è caratterizzata da continue variazioni, mutazioni e imperfezioni che costituiscono il “carburante” della selezione naturale.
Questo equilibrio dinamico tra fedeltà e infedeltà nella trasmissione dell’informazione genetica è ciò che rende possibile l’evoluzione: un eccesso di variazione porta all’instabilità (come nel caso delle cellule tumorali), mentre una fedeltà troppo rigida impedirebbe il cambiamento evolutivo. Questa complessa dinamica di equilibrio tra stabilità e variazione è una caratteristica che nessun sistema informatico è attualmente in grado di replicare. Ma è quella alla base della vita per come la conosciamo.
Alcune delle fonti di questo articolo:
- https://www.harvardmagazine.com/science-technology/harvard-using-dna-to-store-data-technology
- https://www.newscientist.com/article/2452876-dna-has-been-modified-to-make-it-store-data-350-times-faster/
- https://www.timeshighereducation.com/research/kaunas-university-technology/lithuanians-develop-solutions-dna-based-information-storage-technology
- https://www.imec-int.com/en/expertise/health-technologies/dna-storage