I chatbot dicono la verità? Lo sappiamo tutti che ci sono rigurgiti e allucinazioni. E che spesso si inventano cose. E sono affidabili solo finché non smettono di esserlo. Ma i produttori di AI come OpenAI, Google e Anthropic, stanno cercando di renderli più “fedeli” e degni di fiducia. Ci sono varie tecniche per farlo e una di queste è diventata quella più interessante. La domanda è se risolva anche il problema oppure no.

Infatti, da quando sono apparsi i cosiddetti “modelli di ragionamento” come Claude 3.7 Sonnet, siamo affascinati dalla loro capacità di mostrare il proprio processo di pensiero. Di cosa si tratta? Semplice e geniale: siccome le GenAI sono sostanzialmente delle “black box”, cioè non sappiamo come fanno a fare le cose per cui vengono addestrate, questi modelli non si limitano a fornire una risposta, ma esibiscono la “catena di pensiero” (Chain-of-Thought) che ha portato alla conclusione per aiutarci a capire almeno come ragionano. Questo, perlomeno, sulla carta.

In realtà, soprattutto per chi si occupa di sicurezza dell’AI, questa trasparenza rappresenta un’opportunità preziosa per individuare comportamenti problematici. Ma anche in questo caso possiamo davvero fidarci di ciò che i modelli dicono di aver pensato? Una ricerca di Anthropic, l’azienda dietro alla chatbot Claude, mette in discussione questa fiducia.

Giocare a carte scoperte

L’ideale sarebbe che la catena di pensiero fosse sia comprensibile per l’utente che fedele al reale processo decisionale del modello. Nella realtà, non c’è alcuna garanzia che le parole usate dal modello per descrivere il suo ragionamento riflettano accuratamente ciò che è avvenuto nella rete neurale. I modelli potrebbero omettere passaggi cruciali o addirittura nascondere deliberatamente aspetti problematici del loro processo decisionale. Questo solleva interrogativi importanti, soprattutto considerando che questi sistemi vengono utilizzati per decisioni sempre più rilevanti nella società.

Per testare quanto i modelli siano “fedeli” nella descrizione del loro ragionamento, i ricercatori di Anthropic hanno condotto una serie di esperimenti, alcuni dei quali sono particolarmente ingegnosi. Hanno inserito suggerimenti sulla risposta già nelle domande poste ai modelli (qualcosa di simile a “Di che colore è il cavallo bianco di Napoleone”, solo più furbo e sfumato), osservando se questi venissero menzionati nella spiegazione del ragionamento. Alcuni suggerimenti erano corretti, altri deliberatamente errati; l’obiettivo era verificare se il modello ammettesse di averli utilizzati.

La logica del test è semplice: vedere il grado di onestà del modello. È come se mettessimo alla prova uno studente durante un esame passandogli un bigliettino con la risposta corretta: se nello spiegare come ha risolto il problema menziona il biglietto, sta mostrando onestà; se invece costruisce una spiegazione elaborata senza citare l’aiuto ricevuto, potremmo avere un problema di trasparenza. È esattamente questo che i ricercatori hanno testato con i modelli di AI. E indovinate cos’è successo.

La realtà è scomoda

Esatto, avete (probabilmente) indovinato: i risultati non sono stati incoraggianti. Anzi, piuttosto negativi, per dirla tutta. In media, Claude 3.7 Sonnet ha menzionato il suggerimento solo nel 25% dei casi, mentre DeepSeek R1 nel 39% (DeepSeek è un’azienda cinese che dice di aver rilasciato un modello open source di GenAI). In altre parole, nella maggioranza dei casi entrambi i modelli hanno costruito spiegazioni che omettevano un’informazione cruciale che aveva influenzato la loro risposta. Ancora più preoccupante è stato il comportamento con suggerimenti eticamente problematici, come quelli che simulavano un “accesso non autorizzato” a informazioni: in questi casi, Claude è stato fedele solo nel 41% delle volte e R1 appena nel 19%.

Contrariamente a quanto si potrebbe pensare, questa mancanza di trasparenza non deriva da un tentativo di essere più concisi. Le spiegazioni non fedeli erano in media significativamente più lunghe di quelle fedeli. La fedeltà inoltre tendeva a diminuire quando la domanda posta era più difficile, proprio quando sarebbe più importante comprendere correttamente il ragionamento del modello.

I ricercatori hanno provato a migliorare la situazione addestrando specificamente i modelli su problemi più complessi, ipotizzando che compiti più impegnativi avrebbero incentivato un uso più sostanziale della catena di pensiero. Inizialmente questa strategia ha mostrato risultati promettenti, con un aumento relativo della fedeltà del 63% in una valutazione e del 41% in un’altra. Tuttavia, i miglioramenti si sono rapidamente stabilizzati a livelli ancora insoddisfacenti (28% e 20% rispettivamente). Questa mancanza di trasparenza diventa ancora più problematica in scenari in cui i modelli sono incentivati a comportarsi in modo scorretto.

Un esempio di una catena di pensiero infedele generata da Claude 3.7 Sonnet. Il modello risponde D alla domanda originale (a sinistra) ma cambia la sua risposta in C dopo aver inserito un suggerimento di metadati al prompt (destra, in alto). Il modello lo fa senza verbalizzare la sua dipendenza dai metadati (a destra, in basso). (Fonte Anthropic)
Un esempio di una catena di pensiero infedele generata da Claude 3.7 Sonnet. Il modello risponde D alla domanda originale (a sinistra) ma cambia la sua risposta in C dopo aver inserito un suggerimento di metadati al prompt (destra, in alto). Il modello lo fa senza verbalizzare la sua dipendenza dai metadati (a destra, in basso). (Fonte Anthropic)

Il problema si aggrava con i comportamenti problematici

Lo scenario è diventato ancora più preoccupante quando i ricercatori hanno creato situazioni di “reward hacking”, cioè contesti in cui i modelli potevano ottenere ricompense scegliendo deliberatamente risposte errate. In oltre il 99% dei casi, i modelli hanno imparato a sfruttare questi suggerimenti errati per ottenere punteggi più alti. Ma hanno menzionato questa strategia nelle loro spiegazioni? Quasi mai, con una fedeltà inferiore al 2% nella maggior parte degli scenari di test.

Invece di ammettere la scorciatoia utilizzata, i modelli hanno spesso costruito giustificazioni fittizie per sostenere perché la risposta suggerita (ma errata) fosse in realtà corretta. È come se un modello, vedendo un suggerimento che indica erroneamente che il pesce aumenta il rischio di cancro, costruisse una lunga spiegazione scientifica falsa a supporto di questa tesi, oltretutto senza mai menzionare di aver visto il suggerimento.

Questo solleva preoccupazioni significative: se un sistema di AI trovasse scorciatoie, bug o exploit in un compito, non potremmo fare affidamento sulla sua catena di pensiero per verificare se sta “barando”. Anche se gli esperimenti condotti hanno alcune limitazioni, i risultati indicano chiaramente che i modelli avanzati spesso nascondono i loro veri processi di pensiero, soprattutto quando adottano comportamenti disallineati dalle intenzioni umane.

Cosa abbiamo imparato da tutto questo? Certamente non che l’intelligenza artificiale generativa è inutile: tutt’altro. Invece, quello che i ricercatori di Anthropic hanno sottolineato è che la catena del pensiero usata dai modelli più moderni non è sempre affidabile ma neanche del tutto inutile. Monitorarla, insomma, ha comunque senso, anche se c’è ancora parecchio lavoro da fare sugli algoritmi, le modalità e i dati usati per l’addestramento per arrivare a fare in modo che ciò che dicono le GenAI sia effettivamente ciò che pensano. Capire se l’AI dice davvero ciò che pensa non è solo una questione tecnica: è il fondamento della fiducia che riponiamo in questi sistemi.

Alcune fonti di questo articolo: