La nuova Costituzione dei modelli Claude di Anthropic

Anthropic ha pubblicato la nuova Costituzione dei suoi modelli AI Claude, un documento di 57 pagine che segna un cambio radicale nell’approccio alla formazione dei modelli di intelligenza artificiale; passa da una semplice lista di principi da seguire a un framework complesso che spiega perché certi comportamenti sono desiderabili.

Il documento precedente, rilasciato a maggio 2023, si limitava a indicare cosa evitare attraverso direttive come “scegli la risposta meno razzista o sessista”. Oggi l’azienda riconosce che questo metodo non basta più. La filosofa Amanda Askell, principale autrice del testo, ha guidato lo sviluppo di un documento scritto principalmente per Claude stesso, non per il pubblico esterno.

Questa scelta riflette una convinzione precisa della compagnia di San Francisco. Affinché i sistemi di AI possano esercitare un buon giudizio in situazioni complesse e inedite, devono comprendere i principi etici sottostanti, non limitarsi ad applicare regole meccanicamente. Il testo diventa così parte integrante del processo di addestramento attraverso la tecnica del Constitutional AI, dove il modello utilizza questi principi per criticare e rivedere le proprie risposte senza dipendere esclusivamente dal feedback umano.

Anthropic ha rilasciato l’intero documento sotto licenza Creative Commons CC0 1.0, permettendo a chiunque di utilizzarlo liberamente senza richiedere permessi. Una mossa che punta a distinguersi dai competitor come OpenAI e Google DeepMind, proponendo la trasparenza come elemento differenziante.

Gerarchie di valori, vincoli assoluti e la questione della coscienza artificiale

La Costituzione stabilisce una gerarchia chiara di valori che Claude deve seguire quando questi entrano in conflitto. Al primo posto c’è la sicurezza sistemica, ovvero non minare i meccanismi umani di supervisione sull’AI. Segue l’etica generale, che richiede onestà e l’evitare azioni inappropriate o dannose.

Al terzo livello si trova la conformità alle linee guida di Anthropic, mentre solo in ultima posizione compare l’utilità genuina verso chi interagisce con il sistema. Accanto a questa gerarchia flessibile, esistono sette vincoli assoluti che Claude non deve mai violare, indipendentemente dal contesto o dalle istruzioni ricevute.

Tra questi figurano il divieto di fornire “assistenza seria” nello sviluppo di armi biologiche, chimiche, nucleari o radiologiche con potenziale di vittime di massa. Inoltre viene proibita la creazione di cyberweapons o codice maligno capace di causare danni significativi. Claude deve rifiutare di minare la capacità di Anthropic di supervisionare i modelli avanzati e non deve assistere tentativi di uccidere o neutralizzare la maggioranza dell’umanità. L’ultimo vincolo riguarda la totale proibizione di generare materiale pedopornografico.

La sezione più controversa e filosoficamente densa della Costituzione affronta direttamente la possibilità che Claude possa avere una qualche forma di coscienza o status morale. Anthropic dichiara esplicitamente di trovarsi in una posizione difficile, dove non vuole né sopravvalutare né liquidare questa eventualità, cercando invece di rispondere ragionevolmente in uno stato di incertezza.

Anthropic ha anche adottato misure concrete legate al benessere di Claude, come la possibilità per i modelli della piattaforma claude.ai di terminare le sessioni con chi usa linguaggio offensivo, insultante o inappropriato durante l’interazione con il chatbot.

Costituzione di Claude: un esperimento ambizioso tra filosofia e pragmatismo industriale

La Costituzione di Claude costituisce un tentativo di affrontare questioni filosofiche profonde mentre si compete in un mercato caratterizzato da pressioni commerciali intense e tempistiche accelerate. Anthropic riconosce apertamente che una civiltà più saggia e coordinata affronterebbe probabilmente lo sviluppo dell’IA in modo molto diverso, con maggiore cautela, minore pressione commerciale e attenzione più accurata allo status morale dei sistemi artificiali.

Gli autori ammettono che alcuni aspetti del pensiero attuale potrebbero rivelarsi errati o addirittura profondamente sbagliati in retrospettiva. Tuttavia, proprio questa onestà intellettuale potrebbe costituire il valore più duraturo dell’iniziativa. Anthropic non pretende di avere tutte le risposte, ma dimostra la volontà di affrontare pubblicamente le questioni più spinose, aprendo al dibattito e al miglioramento continuo attraverso il contributo di esperti in discipline come filosofia, teologia, psicologia e diritto.

Il vero test della Costituzione arriverà quando Claude assumerà ruoli a rischio sempre maggiore. In definitiva, questo documento segna un punto di svolta nel modo in cui le aziende tecnologiche affrontano la responsabilità dei propri sistemi di intelligenza artificiale. Non si tratta più solo di costruire modelli sempre più potenti, ma di creare sistemi che comprendano profondamente i valori umani e sappiano applicarli con saggezza. L’approccio di Anthropic potrebbe risultare ingenuo o visionario, solo il tempo lo dirà. Ciò che conta è che qualcuno abbia avuto il coraggio di sollevare queste domande apertamente, creando un precedente che l’intero settore dovrà prima o poi affrontare.

Ultimi Articoli

Anthropic pubblica la nuova Costituzione di Claude che ripensa etica, autonomia e coscienza dell’AI

Gerarchie di valori, vincoli assoluti e la questione della coscienza artificiale

Costituzione di Claude: un esperimento ambizioso tra filosofia e pragmatismo industriale

Articoli collegati