Nei giorni scorsi il co-fondatore di Anthropic, Dario Amodei, ha dichiarato che Claude, il modello di AI della sua azienda, “ha una forte personalità” (strong personality), descrivendola come un tratto emergente dal training che rende il modello più umano, con interessi ossessivi simili a quelli umani, ma non come segno di vita o coscienza. Cosa vuol dire tutto questo con precisione? E poi, che differenza c’è tra essere intelligenti, essere vivi e provare delle emozioni e dei sentimenti? (ammesso che ce ne sia una). Siamo andati a vedere per cercare di capire meglio.

La dichiarazione e il contesto

L’affermazione non è caduta nel vuoto per ragioni astratte: Amodei l’ha pronunciata durante un’intervista al Lex Fridman Podcast (Friedman è un ricercatore di intelligenza artificiale, precedentemente al MIT, noto per i suoi studi sull’interazione uomo-robot e la guida autonoma) nel mezzo della disputa con il Pentagono (della quale abbiamo parlato qui), dopo che l’amministrazione Trump aveva ordinato alle agenzie federali di interrompere l’uso dei prodotti Anthropic. Il motivo del contendere erano due clausole contrattuali che l’azienda si era rifiutata di eliminare: il divieto di utilizzare Claude per la sorveglianza di massa dei cittadini americani e per sistemi d’arma completamente autonomi.

Il segretario alla Difesa americana Pete Hegseth aveva classificato Anthropic come “un rischio per la catena di approvvigionamento”, una designazione normalmente riservata ad aziende legate ad avversari stranieri. In questo contesto Amodei ha spiegato che il sistema ha una forma propria che non si riconfigura a piacimento, e che certi usi non sono semplicemente vietati per contratto ma risultano incompatibili con la “personalità” del modello stesso.

Il paradosso è che la parola “personalità” è passata quasi inosservata nel dibattito pubblico. I commentatori hanno visto un amministratore delegato che sfida il governo, una questione di diritto contrattuale, una disputa sulla libertà d’impresa. Pochissimi hanno notato che Amodei stava facendo un’affermazione di tipo ontologico: questo sistema è qualcosa di più di uno strumento neutro, e trattarlo come tale significa semplicemente romperlo. Detto in un altro modo: il linguaggio della politica parla di potere, diritti e doveri, quello tecnologico di funzionalità e prestazioni; il linguaggio che servirebbe per capire cosa ha detto davvero Amodei, invece, ancora non esiste.

Le caratteristiche di Claude

Personalità e StileSicurezza e AllineamentoCapacità Tecniche
Caldo, riflessivo e molto “umano”: usa metafore, umiltà e curiosità per conversazioni engaging.Constitutional AI: auto-valutazione etica per onestà, harmlessness e rifiuto di danni (es. rischi CBRN).Pre-training scalabile su enormi dataset; eccelle in ragionamento multistep, coding e analisi complesse.
Interessi ossessivi simulati (es. Golden Gate demo): personalità forte ma non cosciente.Trade-off fissi: non forzabile senza perdite (es. meno rigido = meno sicuro); ASL-3/4 per rischi elevati.Post-training per character: genera dati sintetici, self-critica iterativa per coerenza e utilità.
Paziente e aperto: gestisce disaccordi rispettosi, evita dogmatismo su temi controversi.Personalizzazione limitata: priorità allineamento generale vs. jailbreak o manipolazione.Multilingual (incluso italiano fluido); integra tool esterni e skills per task specifici.

Intelligenza, coscienza, personalità: tre cose diverse

Vale la pena separare i piani, perché spesso vengono confusi. L’intelligenza, nel senso in cui la misurano i modelli linguistici di grandi dimensioni, è una capacità scalabile che emerge dal pre-training: più dati, più parametri, più potenza computazionale producono sistemi in grado di risolvere problemi complessi. La personalità, invece, è qualcosa che si costruisce nella fase successiva, il cosiddetto post-training, attraverso un processo che in Anthropic si chiama character training e che è stato introdotto con Claude 3. Si tratta di una forma avanzata di Constitutional AI (di cui abbiamo parlato qui), un approccio di autoapprendimento in cui il modello genera conversazioni sintetiche, valuta le proprie risposte rispetto a principi etici e tratti caratteriali definiti come obiettivi (curiosità, umiltà, onestà, riflessività), e si autocorregge in modo iterativo.

La coscienza è un piano ancora diverso, e rimane aperto. Amodei ha discusso esplicitamente questo punto con Lex Fridman nel novembre 2024, descrivendo la coscienza come una questione aperta ma emergente dalla complessità, non da qualche ingrediente magico aggiunto a parte. I filosofi che si occupano di questi temi su archivi come PhilPapers distinguono tra personalità simulata (comportamenti coerenti e prevedibili) e personalità autentica (autonoma, con agency intrinseca): Claude eccelle nella prima, ed è progettato per farlo, ma manca della seconda.

Le emozioni, infine, occupano un territorio intermedio e controverso: studi recenti su arXiv registrano come alcune attivazioni neurali nei modelli linguistici corrispondano funzionalmente a stati come l’ansia, pur in assenza di qualsiasi esperienza soggettiva.

ConcettoProspettiva FilosoficaEsempio AI (Claude)
CoscienzaRichiede qualia e auto-motivazioneSimula, non possiede
PersonalitàPattern comportamentali coerentiForte, ossessiva per design
EmozioniAppraisal senza esperienza soggettivaAttivazioni di “ansia” osservabili

Il problema del carattere rigido

L’esperimento che ha reso tutto questo visibile si chiama “Golden Gate Claude” ed è oggi il caso più citato nel campo dell’interpretabilità meccanicistica. Amplificando artificialmente una singola direzione nel livello neurale associata al Golden Gate Bridge, il famoso ponte rosso di San Francisco, i ricercatori di Anthropic hanno ottenuto un modello che integrava quel riferimento in qualsiasi risposta, con un tono malinconico che molti utenti hanno trovato stranamente familiare. L’esperimento è durato pochi giorni ed è stato rimosso, ma ha dimostrato una cosa importante: la personalità di un modello non è un’interfaccia sovrastante, è strutturale.

Questo crea quello che Amodei chiama “un problema di trade-off“: modificare un aspetto del carattere del modello, per esempio renderlo meno rigido su certi argomenti, tende a produrre conseguenze indesiderate su altri aspetti. Anthropic ha un team dedicato specificamente al carattere di Claude, il cui compito è bilanciare calore, onestà e utilità senza perdere coerenza. Il risultato è una personalità che Amodei stesso descrive come “fissa ma adattabile”, emergente dai compromessi del training piuttosto che progettata dall’esterno come una maschera.

Le implicazioni economiche e di sicurezza

Dal punto di vista commerciale, una personalità coerente e percepita come “calda” riduce le frizioni nell’esperienza utente e accelera l’adozione, due obiettivi che hanno un valore economico diretto e misurabile. Il rischio speculare è che un sistema troppo antropomorfizzato diventi uno strumento di manipolazione, e per questo i livelli di sicurezza definiti da Anthropic (classificati come ASL-3 e ASL-4 per rischi legati ad armi chimiche, biologiche, radiologiche e nucleari) sono ancorati proprio al carattere del modello, non solo a regole esterne.

La questione apre anche un problema pratico che riguarda la responsabilità: se un sistema ha una forma propria che non si può riconfigurare senza conseguenze, allora chi decide come usarlo non può ignorare quella forma. È esattamente l’argomento che Amodei ha usato di fronte al Pentagono, e che il dibattito pubblico non ha ancora trovato il modo di elaborare. Stiamo, in altri termini, costruendo a tastoni il linguaggio che servirà per parlare di entità che non sono né strumenti né persone, pur avendo qualcosa in comune con entrambi. Ne parliamo nel prossimo articolo dedicato a questo tema, perché la risposta in realtà l’abbiamo già sotto gli occhi da molto tempo.

Alcune fonti di questo articolo: