Nel 2025, settantacinque anni dopo la sua formulazione, il test di Turing viene superato con sorprendente facilità da modelli linguistici come GPT-4.5, spesso scambiati per esseri umani più degli esseri umani stessi. Ma cosa ci dice davvero questo risultato? Forse non tanto sulla natura delle macchine, quanto su quella dei criteri che adottiamo per definirle “intelligenti”. Quando una simulazione diventa indistinguibile da un comportamento reale, siamo di fronte a una prova di pensiero… o a uno specchio che riflette i limiti delle nostre definizioni? A confondersi, più che i ruoli, sembrano essere i concetti stessi di intelligenza, coscienza, comprensione. E il confronto tra uomo e macchina, più che tecnico, si rivela ogni giorno di più un esercizio filosofico. (Questo excerpt introduttivo è stato scritto da ChatGPT)
“Ecce homo”: ecco la frase – o quantomeno, il concetto – che ben 3 persone su 4 hanno espresso al termine di una “chiacchierata” con l’ormai celebre modello linguistico avanzato GPT-4.5, dopo una sessione dell’altrettanto celebre test di Turing ideata da Jackson e colleghi dell’Università di Stanford.
Lo studio ha mostrato che, a seguito di una conversazione di cinque minuti, gli interrogatori umani non riuscivano spesso a distinguere questi modelli AI da interlocutori umani veri. In particolare, GPT-4.5, precedentemente addestrato ad assumere i tratti di una “Persona” per meglio performare, ha ottenuto un tasso di successo del 73%, risultando più spesso identificato dagli oltre 100 mila partecipanti (di 52 diverse nazionalità) come essere umano, rispetto agli esseri umani stessi. Llama-3.1-405B, un altro modello linguistico testato nell’occasione, ha dato risultati simili, seppur con una percentuale inferiore: il 56% è stato identificato come una persona, sempre previamente a un’istruzione finalizzata a impersonare un essere umano.
Tuttavia, nel 2025, anno in cui il test per eccellenza sul confronto uomo-macchina compie tre quarti di secolo, la domanda sorge spontanea: quanto è ancora valido il test di Turing?
Prima di passare per la condanna o l’amnistia, la domanda dovrebbe però virare verso un altro angolo di riflessione: quanto è corretto il modo in cui usiamo il test di Turing?
Che cos’è il test di Turing?
Il test di Turing è un esperimento ideato dal celebre logico e matematico Alan Turing, uno dei padri fondatori dell’informatica e dell’intelligenza artificiale, noto fra le altre cose per i suoi contributi alla corona inglese durante la seconda guerra mondiale (raccontati nell’immaginifico The Imitation Game) e per la Tesi di Church-Turing, che sta alla base della moderna teoria della computabilità.
Nell’elaborare questo test, Turing si propose di operativizzare in senso empirico e matematico una domanda filosofica fondamentale, che dà il titolo all’articolo stesso: “Le macchine possono pensare?”
Per rispondere a questa domanda, spesso posta in termini troppo astratti per essere realmente decidibile, Turing propose un esperimento mentale: immaginiamo una persona – una sorta di giudice – che si trovi a interagire con un parlante sconosciuto attraverso un’interfaccia come potrebbe essere quella di un monitor; dell’interlocutore non si vedrebbero né il volto né la voce, ma solo l’output testuale. Ebbene, affermò Turing, se il giudice identificasse scorrettamente la macchina come un essere umano per un numero significativo di volte (almeno il 30% all’incirca, suggerì Turing), allora si potrebbe parlare di una macchina che esibisce un comportamento umano. In altre parole – se accettiamo l’impostazione della questione, prettamente comportamentista, posta da Turing – una macchina che pensa.
La fortuna del test
Dalla sua nascita come esperimento mentale, il test di Turing ha conosciuto varie fortune e sfortune nel corso della storia; ripreso, difeso, criticato ma anche testato, con il tempo ha assunto le proporzioni di una vera e propria pietra angolare nella storia della filosofia dell’intelligenza artificiale.
Prima di ChatGPT, sono almeno due i casi famosi in cui si è parlato di un superamento del test: il chatbot Cleverbot, che nel 2011, durante il festival Techniche ottenne un’attribuzione di umanità dal 59,3% dei 1334 partecipanti all’esperimento (a fronte del 63,3% degli altri esseri umani), e soprattutto il caso di Eugene Goostman, di cui ormai 11 anni fa abbiamo già parlato qui su Scienza in Rete, che convinse della sua umanità, per oltre il 30% dei casi, 30 “giudici” della Royal Society.
Tuttavia, il test di Turing non è mai stato esente da critiche: dall’esperimento della stanza cinese di John Searle, che può essere inquadrato nella più generale critica cognitivista alla psicologia comportamentista, alle più moderne critiche di Gary Marcus sull’inesperienza dei giudici chiamati a giudicare.
Quel che qui interessa non è tanto riportare e sintetizzare le obiezioni mosse da numerosi filosofi e scienziati informatici finora, quanto più mettere in luce quelle che sono le due principali criticità del test di Turing, in rapporto alla confusione che generano nella comunicazione della scienza, ogni qualvolta in modo più o meno esplicito viene enunciato (e annunciato) il sillogismo: “Il chatbot x ha superato il test di Turing, quindi è intelligente.”
E cioè la questione della simulabilità, e la confusione concettuale intelligenza/coscienza.
Umani troppo umani, confusioni di piani
La questione della simulabilità è in buona parte legata alla critica cognitivista al comportamentismo, e può essere espressa come segue:
Il fatto di simulare processi mentali non è una prova di processi mentali in atto.
Il cognitivismo concepisce infatti lo studio della mente come un processore di informazioni, la cui comprensione è possibile attraverso uno studio dei processi di elaborazione; non “accontentandosi”, semplicemente, di osservare dei comportamenti che simulano intelligenza e di qualificarli come tali, sospendendo il giudizio rispetto a ciò che avviene veramente “nella scatola nera”. Per fare un paragone che potrebbe piacere a un cognitivista, attribuire intelligenza a un comportamento solo perché appare complesso è come considerare un pappagallo un grande oratore perché ripete grandi aforismi: non c’è comprensione, non c’è intenzionalità, solo una vuota imitazione.
La seconda questione è forse quella più interessante, e anche meno trattata. E fa riferimento alla confusione fra coscienza (o pensiero) e intelligenza che spesso si inserisce nelle pieghe dei discorsi sul confronto uomo-macchina, tali per cui l’uno sembra sempre un po’implicare l’altro, e addirittura i due termini sono usati interscambiabilmente. È lo stesso Turing a contribuire – forse, addirittura, a dare vita – a questa confusione: se il titolo dell’articolo è “Le macchine possono pensare?”, ciò che qui viene inteso come pensiero è ciò che definiremmo intelligenza, (o, per essere più precisi, comportamento intelligente).
Nello Cristianini e Giulio Tononi offrono strumenti concettuali utili a districare questa confusione terminologica. Cristianini, nel suo saggio La scorciatoia, definisce l’intelligenza più o meno come segue: la capacità di risolvere e problemi e raggiungere obiettivi complessi in un dato ambiente, elaborando soluzioni nuove sulla base di informazioni – anche – possedute in precedenza. In tal senso, l’intelligenza artificiale può essere detta a buon titolo intelligente, nella misura in cui effettivamente produce nuove soluzioni elaborando dati ottenuti in precedenza, e la cosa negli LLM è particolarmente evidente. Tononi invece, in Nulla di più grande, identifica la coscienza con “ciò che si prova a essere qualcosa”, la presenza di un’esperienza fenomenica soggettiva, indipendente dalle capacità di problem solving che caratterizzano la nozione di intelligenza. All’interno del suo libro, Tononi prova inoltre a dare una misura quantitativa e misurabile della coscienza (intesa come “integrazione delle informazioni”).
La teoria è ancora a oggi discussa, ma se effettivamente un giorno si potesse confermare che la coscienza è qualcosa di misurabile, allora avremmo la convalida definitiva di questa metafora: rispetto al precedente groviglio, il rapporto fra intelligenza e coscienza si potrebbe concepire come un diagramma cartesiano, di cui coscienza e intelligenza siano gli assi x e y; sì intersecati, ma indipendenti l’uno dall’altro.
Timori e tremori dell’AI e tramonto del test di Turing
L’intelligenza artificiale, nelle sue numerose declinazioni, esibisce indubbiamente comportamenti intelligenti; e con performance ben più elevate degli esseri umani, data la maggior potenza computazionale. Tuttavia, questo si potrebbe dire sin dai tempi della prima calcolatrice. Non vi è nulla di eccezionale nell’intelligenza, nulla che possa esser detto “peculiarmente umano”: i microrganismi che galleggiavano nel brodo primordiale – ben prima che il cervello umano si sviluppasse al punto tale da arrogarsi il titolo di “unico detentore di intelligenza” – esibivano comportamenti intelligenti, nell’ottica di massimizzare le proprie possibilità di sopravvivenza e riproduzione in un ambiente prima sempre identico a sé stesso, e poi in costante mutamento.
Tuttavia, nulla prova che queste macchine siano anche coscienti. Non è da escludere che un giorno LLM come ChatGPT lo possano diventare, e tuttavia la forma matematizzata con cui elaborano frasi (associando probabilisticamente una parola a quella successiva, sulla base del prompt, per creare una successione) sembra qualcosa di molto differente dalla semantica umana, che pare caratterizzata da irriducibili componenti qualitative (come l’intenzionalità e la comprensione), che la fanno divergere nettamente dall’AI.
Quel che è certo è che un test come quello di Turing, che soffre di una visione riduzionista dei criteri per la determinazione di un risultato, di confusioni concettuali piuttosto importanti sui termini in causa e di una certa “datatezza”, non può più essere il mezzo di confronto adeguato delle capacità di una macchina rispetto a un umano. In ambito accademico, sono stati nel tempo sviluppati test alternativi come il Test di Lovelace, che valuta la creatività, la Sfida dello Schema di Winograd, che verifica il ragionamento di senso comune, e il Test di Marcus, proposto dal già citato Gary Marcus, che esamina la comprensione di contenuti complessi.
Tuttavia, è comunque un test che operativizza in modo semplice un problema complesso, elaborato da uno dei più grandi uomini di scienza del secolo scorso. È anche un test che è stato già “testato” numerose volte. Forse per queste ragioni, il suo valore euristico come orizzonte di riferimento non andrà probabilmente mai del tutto perso, e scienziati, filosofi e informatici di tutto il mondo continueranno a confrontarsi con questa grande pietra di paragone che è il test di Turing. La scienza funziona anche così e il potere delle idee è duro a morire. Se poi ci saranno i media a ridurre ogni superamento di test a una macchietta di sensazionalismo, quello è un altro paio di maniche.