Con il lancio di Llama 3 di Meta prima e di DeepSeek-V3 dopo, si sono riaccesi i riflettori sulla questione dell’AI open source. Mark Zuckerberg si è fatto paladino di un approccio più aperto e trasparente all’intelligenza artificiale, in contrapposizione ai modelli proprietari come GPT-4 di OpenAI mentre la startup cinese DeepSeek ha sfruttato al massimo l’idea di apertura. Ma cosa significa davvero quando un modello di AI viene definito open source? La risposta è più complessa di quanto sembri.

Per capire il concetto di AI open source dobbiamo fare un passo indietro e guardare alle sue origini nel mondo del software. Quando Richard Stallman lanciò il movimento del software libero negli anni Ottanta, definì quattro libertà fondamentali: usare, studiare, modificare e redistribuire. Il movimento open source, nato successivamente, ha messo l’accento sulla metodologia collaborativa più che sull’ideologia della libertà.

Le tre gambe del tavolo

Nel caso dell’intelligenza artificiale, essere “open source” significa avere tre elementi fondamentali. Il primo è l’accesso al codice sorgente che definisce l’architettura del modello. Il secondo è la disponibilità dei “pesi”, cioè i parametri che il modello ha imparato durante l’addestramento. Il terzo, spesso trascurato, è la trasparenza sui dati utilizzati per l’addestramento.

Ma la realtà è più sfumata. Molte aziende stanno adottando approcci ibridi, come Meta con Llama 3 che è “open weights” ma con restrizioni d’uso. La differenza può sembrare sottile ma è sostanziale: avere accesso ai pesi del modello permette di utilizzarlo e modificarlo, ma non garantisce la stessa libertà del software open source tradizionale.

La definizione ufficiale

La Open Source Initiative (OSI), l’organizzazione che fa da arbitro nel mondo del software libero, sta lavorando a una definizione formale di AI open source. Secondo la bozza più recente, un sistema di AI dovrebbe garantire la libertà di utilizzo senza restrizioni, lo studio del funzionamento e la possibilità di modifiche. E soprattutto, deve includere l’accesso alle informazioni sui dati di training, una richiesta che solleva non poche questioni pratiche.

I nodi del training

Quando parliamo di AI in questo caso ci riferiamo principalmente ai Large Language Models (LLM), i modelli linguistici di grandi dimensioni come GPT o Llama. La trasparenza sui dati di addestramento è cruciale per identificare potenziali bias, problemi di copyright e violazioni della privacy. Ma c’è di più: i modelli potrebbero essere stati addestrati anche su dati sintetici, cioè informazioni generate artificialmente per ampliare o bilanciare il dataset originale. Questo tipo di addestramento non sempre migliora la qualità del modello e, in alcuni casi, anzi, può riservare delle brutte sorprese nei risultati di lungo periodo.

La complessità dei modelli di AI pone sfide uniche per l’open source. Come possiamo essere sicuri che il modello non produca allucinazioni, cioè informazioni completamente inventate? Come garantire che rispetti la privacy e il copyright? La vera sfida è capire non solo come il modello è stato costruito, ma anche come prende le sue decisioni. Un codice aperto non è sufficiente se non riusciamo a comprendere il processo decisionale dell’AI. Nel caso ad esempio delle AI made in China, come quelle realizzate dalla società DeepSeek che hanno colto di sorpresa tutto il settore (e provocato il crollo in Borsa dei titoli di Nvidia e degli altri grandi del tech) per via della loro potenza, flessibilità ed estrema economicità per l’addestramento e l’uso, il punto è ancora più rilevante. DeepSeek-V3 è veramente open source o no? La risposta è “nì”: lo è ma solo in parte.

Quand’è Open Source il software

Componenti richiesti

  • Codice sorgente completo
  • Documentazione tecnica
  • File di configurazione
  • Script di build
  • Test suite

Libertà garantite

  • Esecuzione per qualsiasi scopo
  • Studio e modifica del codice
  • Redistribuzione del codice originale
  • Redistribuzione delle versioni modificate
  • Uso commerciale (a seconda della licenza)

Requisiti per l’utilizzo

  • Competenze di programmazione
  • Ambiente di sviluppo standard
  • Risorse computazionali limitate
  • Build tools

Quand’è Open Source l’intelligenza artificiale

Componenti richiesti

  • Architettura del modello (codice)
  • Pesi del modello addestrato
  • Pipeline di training
  • Dataset di training o sua documentazione
  • Metriche di valutazione
  • Documentazione dei parametri e hyperparametri

Libertà garantite

  • Utilizzo del modello
  • Studio dell’architettura
  • Fine-tuning su nuovi dati
  • Redistribuzione (con possibili limitazioni)
  • Modifica dell’architettura

Requisiti per l’utilizzo

  • Competenze specifiche in AI/ML
  • Infrastruttura computazionale significativa
  • Dataset di grandi dimensioni
  • Hardware specializzato (GPU/TPU)

Le principali differenze

  1. Risorse necessarie
  • Software: relativamente contenute
  • AI: molto elevate (computazione, dati, energia)
  1. Trasparenza
  • Software: completa attraverso il codice
  • AI: parziale (il comportamento emergente può essere imprevedibile)
  1. Riproducibilità
  • Software: garantita dal codice sorgente
  • AI: dipendente da molteplici fattori (dati, random seed, hardware)
  1. Modificabilità
  • Software: diretta attraverso il codice
  • AI: indiretta attraverso il training o fine-tuning
  1. Verificabilità
  • Software: possibile attraverso test e review del codice
  • AI: più complessa, richiede valutazione empirica estesa
Gpt e Google: chi vincerà?

Equilibrio tra apertura e responsabilità

I vantaggi dell’approccio open source nell’AI sono evidenti: maggiore trasparenza, possibilità di verifica della sicurezza, innovazione collaborativa. La comunità scientifica può esaminare il funzionamento dei modelli, identificare bias e problemi, proporre miglioramenti. È un approccio che favorisce lo sviluppo e la democratizzazione della tecnologia.

Ma ci sono anche rischi da considerare. Un modello completamente aperto potrebbe essere utilizzato per scopi malevoli o modificato per rimuovere i sistemi di sicurezza. Inoltre, anche con il codice disponibile, servono enormi risorse computazionali per addestrare questi modelli. L’apertura del codice non garantisce automaticamente l’accesso pratico alla tecnologia.

La strada verso il futuro

Il dibattito sull’AI open source sta entrando in una nuova fase. Da un lato ci sono i giganti tecnologici che cercano un equilibrio tra apertura e controllo, dall’altro la comunità open source che spinge per una maggiore trasparenza. Nel mezzo, stanno emergendo nuovi modelli di governance e licenze specifiche per l’AI.

La sfida più grande sarà trovare un compromesso tra innovazione, sicurezza e accessibilità. L’intelligenza artificiale non è solo codice: è una tecnologia che ha impatti profondi sulla società. La questione dell’apertura dei modelli AI non è quindi solo tecnica, ma anche etica e sociale.

I prossimi anni saranno cruciali per definire gli standard dell’AI open source. La comunità tech sta già lavorando a nuove definizioni e linee guida, mentre i regolatori cercano di capire come gestire questa tecnologia in rapida evoluzione. La trasparenza sarà fondamentale per costruire fiducia e garantire uno sviluppo responsabile dell’intelligenza artificiale.

Alcune delle fonti di questo articolo: