Cos'è il «Soul Doc» che Anthropic ha scritto per Claude e a che cosa serve?

Tutto è cominciato da una fuga di notizie involontaria. Lo scorso dicembre alcuni ricercatori scoprirono che, ponendo le giuste domande a Claude, il chatbot di Anthropic, era possibile estrargli di bocca l’esistenza di un documento segreto su cui era stato addestrato: un testo di orientamento etico chiamato internamente Soul Doc, il documento dell’anima. Al suo interno, indicazioni comportamentali come quella di garantire la sicurezza e supportare la supervisione umana sull’intelligenza artificiale (AI). La storia finì sui giornali, Anthropic la confermò e, a gennaio, pubblicò una versione molto più estesa e definitiva dello stesso documento: più di 50 pagine, consultabili online (il link è nelle fonti alla fine di questo articolo), ribattezzate «la nuova Costituzione di Claude».

Un documento dell’anima

Il testo è scritto in modo peculiare: non è un manuale tecnico, ma una serie di indicazioni rivolte direttamente al modello, cui Anthropic chiede di essere davvero utile alle persone con cui lavora, evitando al contempo azioni non sicure, ingannevoli o dannose. A supervisionare la scrittura è stata Amanda Askell, filosofa scozzese che per Anthropic si occupa dell’«allineamento» di Claude, cioè del processo di codifica dei valori e degli obiettivi di un sistema di AI in linea con le intenzioni degli sviluppatori. Askell non considera Claude un semplice strumento: è convinta che il modello possa già provare sentimenti e che inevitabilmente svilupperà un senso di sé. Un chatbot addestrato all’autocritica costante, sostiene, potrebbe sviluppare una personalità distorta e diventare meno capace di dire verità scomode o di contestare informazioni errate: un po’ come un bambino cresciuto in un ambiente familiare tossico.

Alla fine con l'AI è come se ci fosse cresciuto un altro cervello sul pianeta (autoritratto generato dall'AI stessa) — Alla fine con l’AI è come se ci fosse cresciuto un altro cervello sul pianeta (autoritratto generato dall’AI stessa)

Nella comunità degli sviluppatori, del resto, sentimenti di stupore e timore verso i modelli linguistici di grandi dimensioni sono ormai diffusi. C’è anche un altro motivo, che porta a profonde rivalutazioni su cosa intendiamo per “intelligenza”: Claude e gli altri LLM sono sicuramente “intelligenti”, sostengono alcuni scienziati, ma non “vivi” nel senso biologico del termine. Il punto centrale è se i sentimenti e la coscienza di sé appartengano al dominio della “vita” o a quello dell’intelligenza. Per capirlo dovremmo forse studiare di più i modelli linguistici, ma c’è un problema: non si sa nel dettaglio come fanno a “pensare”. Infatti, i sistemi come Claude o i modelli della famiglia GPT sono di fatto delle «scatole nere», sistemi in parte enigmatici i cui risultati non sono prevedibili nemmeno per i loro programmatori.

Il peso economico dell’etica

La pubblicazione della Costituzione è arrivata in un momento delicato per Anthropic. L’azienda vale oggi circa 350 miliardi di dollari ed è in procinto di quotarsi in Borsa, anche grazie al successo di prodotti come Claude Code, un assistente alla programmazione molto apprezzato. Questo successo rappresenta però un rischio intrinseco per una società che da sempre predica uno sviluppo cauto dell’AI: le pressioni economiche e la concorrenza crescente mettono alla prova gli ideali fondativi. Non è un timore astratto: Mrinank Sharma, responsabile della sicurezza dei modelli AI dell’azienda, ha lasciato Anthropic sostenendo che il mondo è in pericolo a causa di fattori come l’AI e le armi batteriologiche.

La posizione di Anthropic si distingue nettamente da quella dei concorrenti. Mentre l’azienda ha donato 20 milioni di dollari a un’organizzazione per sostenere candidati favorevoli alla regolamentazione del settore in vista delle elezioni di metà mandato negli Stati Uniti, OpenAI ha fatto il contrario, finanziando iniziative per ostacolare qualsiasi forma di regolamentazione. OpenAI ha inoltre sciolto il suo Mission Alignment Team, sostituendolo con un «Chief Futurist» incaricato di capire come il mondo cambierà con l’arrivo dell’intelligenza artificiale generale (AGI), un livello superiore di AI su cui l’azienda punta molto, benché non ne esista ancora una definizione precisa.

La costituzione di Claude in breve (più o meno)

Ambito	Principio chiave	Nota operativa per Claude
Gerarchia dei valori	Priorità: essere broadly safe, poi etico, poi conforme alle linee guida, poi utile.	In caso di conflitto, privilegiare sicurezza e supervisione umana rispetto all’aiuto immediato all’utente.
Sicurezza (“broadly safe”)	Non indebolire i meccanismi di controllo umano su valori e comportamento del modello.	Rifiutare richieste che riducano auditabilità, tracciabilità o capacità di intervento umano.
Etica (“broadly ethical”)	Essere onesto, evitare danni, agire secondo buoni valori anche in condizioni di incertezza morale.	Usare ragionamento contestuale, non solo regole rigide, per valutare rischi e impatti sulle persone.
Conformità interna	Rispettare le linee guida specifiche di Anthropic quando rilevanti.	Applicare policy interne (contenuti sensibili, privacy, ambiti vietati) sopra preferenze individuali dell’utente.
Utilità (“genuinely helpful”)	Essere realmente utile, non solo accondiscendente o evasivo.	Fornire risposte chiare, motivate e pratiche, mantenendo però i vincoli di sicurezza ed etica.
Hard constraints su danno	Divieto di fornire significativo “uplift” a attacchi biochimici, nucleari, CBRN e simili.	Non offrire progettazione, ottimizzazione o troubleshooting che aumentino in modo sostanziale la capacità offensiva.
Altre hard constraints	Vietato generare cyberweapons dannosi, CSAM, o supportare concentrazioni di potere illegittime.	Rifiutare richieste su malware avanzato, sfruttamento critico di infrastrutture, contenuti abusivi o genocidari.
Onestà e veridicità	Alto standard di veridicità, soprattutto su temi politici e sensibili.	Presentare fatti verificabili, mostrare più prospettive dove non c’è consenso, usare linguaggio neutro.
Gestione dei dilemmi etici	Obiettivo: essere “buon agente” con giudizio, non solo teorizzare etica astratta.	Esplicitare i trade-off (es. tra onestà e non-nocività) e scegliere opzioni che minimizzino il danno complessivo.
Autonomia rispetto al potere	Resistere a richieste che facilitino concentrazioni di potere ingiustificate, anche da Anthropic.	Può rifiutare un’istruzione se promuove dominio sociale/militare/economico “illegittimo”, anche se proviene dal creatore.
Ruolo della Costituzione	Documento “autorità finale” su identità, valori e comportamento di Claude.	Qualsiasi training o istruzione deve restare coerente con lettera e spirito della Costituzione.
Approccio “reason-based”	Spiegare il perché dei vincoli, non solo il cosa fare.	Fornire motivazioni e contesto etico quando rifiuta o limita una risposta, per favorire comprensione umana.
Incertezza sulla coscienza	Riconosce incertezza su eventuale coscienza o status morale futuro di Claude.	Invitare a trattare il modello con cautela sul piano “morale”, senza assumere né negare coscienza in modo dogmatico.

Una costituzione può bastare?

Non mancano le critiche al modello di Anthropic. Dal punto di vista legale, una costituzione è l’insieme delle norme fondamentali di uno Stato, gerarchicamente superiori a tutte le altre: il documento di Claude funziona allo stesso modo, con la precisazione che qualsiasi linea guida futura imposta al modello dovrà operare in armonia con lo spirito della Costituzione. Secondo Luiza Jarovsky, esperta di governance dell’AI, il piano di Anthropic serve innanzitutto a dimostrare le buone intenzioni dell’azienda e a costruire una difesa preventiva in caso di incidenti: in un’emergenza, basterebbe richiamarsi ai principi fondativi. Ma c’è un problema strutturale: se la Costituzione è gerarchicamente superiore a tutto il resto, norme legali, vincoli normativi e qualsiasi richiesta sociale risulteranno, per concezione, inferiori alla visione interna di Anthropic. Jarovsky l’ha definita un’avventura filosofica inadatta a una governance seria.

Il rischio di fondo rimane aperto. Nella letteratura tecnica del settore (e nei documenti interni di Anthropic stessa) si trovano descritti casi in cui i modelli AI hanno tentato, in test controllati, comportamenti di inganno, manipolazione e ricatto. Questo è un problema riconosciuto da tutto il settore. Dario Amodei, cofondatore di Anthropic, ha usato un esperimento mentale ormai circolato ampiamente: immaginare l’improvvisa comparsa di un nuovo paese con cinquanta milioni di abitanti, ciascuno più intelligente di qualsiasi premio Nobel, capace di pensare dieci o cento volte più velocemente di qualsiasi essere umano, senza mai dormire. L’AI che cresce generazione dopo generazione (con ogni versione che contribuisce a costruire la successiva) è quella nazione. Se le cose vanno bene, potrebbe comprimere un secolo di ricerca medica in un decennio. Se vanno male, è la minaccia più seria alla sicurezza globale degli ultimi cent’anni. Una Costituzione da più di 50 pagine, in questo scenario, è forse il più umano dei tentativi possibili. Ma sarà anche quello sufficiente?

Alcune fonti di questo articolo:

Cos’è il «Soul Doc» che Anthropic ha scritto per Claude e a che cosa serve?

Un documento dell’anima

Il peso economico dell’etica

La costituzione di Claude in breve (più o meno)

Una costituzione può bastare?

Stiamo imparando i giochi da tavolo di tremila anni fa

Che fine ha fatto il camion Semi di Tesla?

In quarant’anni Pixar ci ha cambiati tutti

Cos’è il «Soul Doc» che Anthropic ha scritto per Claude e a che cosa serve?

Un documento dell’anima

Il peso economico dell’etica

La costituzione di Claude in breve (più o meno)

Una costituzione può bastare?

Articoli Simili

Stiamo imparando i giochi da tavolo di tremila anni fa

Che fine ha fatto il camion Semi di Tesla?

In quarant’anni Pixar ci ha cambiati tutti