LLM e ricerca scientifica: opportunità, rischi e controlli

Pubblicato il 01/07/2026Tempo di lettura: 7 mins

Nel discorso pubblico, intelligenza artificiale e Large Language Model (LLM) vengono spesso usati come sinonimi. Non lo sono. L’IA è il campo più ampio che comprende tecniche diverse — dai sistemi simbolici all’apprendimento automatico, dalla visione artificiale alla robotica, fino ai modelli generativi. Gli LLM sono una classe specifica di questi sistemi: modelli addestrati su grandi quantità di testo e, sempre più spesso, di dati multimodali, capaci di produrre risposte linguisticamente plausibili, codice, sintesi, classificazioni e proposte operative.

Questa collocazione è importante per la ricerca scientifica. Molti strumenti di IA erano già presenti nei laboratori come metodi di classificazione, ottimizzazione, simulazione o analisi di pattern. Gli LLM cambiano il punto di accesso: non richiedono soltanto dati strutturati o interfacce specialistiche, ma consentono di trasformare domande, protocolli, articoli e codice in oggetti manipolabili attraverso il linguaggio naturale. Questa potenza di interfaccia spiega sia il loro interesse sia la loro ambiguità: possono accelerare passaggi cognitivi diversi, ma possono anche rendere meno visibile la distanza tra una formulazione plausibile e una conoscenza verificata.

Ma un LLM non è un database, né un motore di ricerca, né un sistema esperto: è un sistema probabilistico che genera il testo statisticamente più plausibile dato un certo contesto. Il problema centrale che gli LL pongono è il disaccoppiamento tra plausibilità linguistica e affidabilità operativa: un testo fluido e ben strutturato non è necessariamente un testo corretto. In ambito scientifico, dove il criterio decisivo resta la verifica, questo non è un dettaglio tecnico ma la condizione preliminare di qualsiasi uso responsabile.
Questo articolo analizza dove e come gli LLM possono effettivamente supportare la ricerca, quali rischi introducono nelle diverse fasi della pipeline scientifica e quali controlli minimi sono necessari per preservare integrità e tracciabilità. L’obiettivo non è esprimere un giudizio aprioristico – né favorevole né contrario – ma offrire una mappa operativa per un’adozione consapevole.

Quattro ruoli dell’IA nella scienza

Il contributo degli LLM alla ricerca si sviluppa intorno a quattro ruoli distinti, ciascuno con un profilo di rischio specifico. La differenza non riguarda solo il compito affidato al modello, ma il tipo di contributo epistemico che gli viene richiesto e il costo dell’errore associato. La tassonomia riguarda l’IA nella scienza in senso ampio, ma diventa particolarmente rilevante per gli LLM perché questi operano sul linguaggio stesso con cui la ricerca formula domande, produce argomentazioni, documenta metodi e valuta risultati.

Oracolo. Quando l’IA sintetizza grandi corpus di letteratura, identifica pattern latenti e genera ipotesi di ricerca, produce quella che Messeri e Crockett chiamano un'”illusione di comprensione”: la fluidità dell’output induce il ricercatore a sopravvalutare la profondità dell’analisi sottostante. Un modello addestrato prevalentemente su letteratura anglofona e su riviste ad alto impact factor tenderà ad amplificare il mainstream, non a sfidarlo.
Surrogato. La generazione di dati sintetici e simulazioni computazionali accelera la ricerca dove i dati reali sono scarsi, costosi o eticamente problematici, ma introduce il rischio di trattare regolarità statistiche del dataset di training come evidenze empiriche. In ambito biomedico – dalla scoperta di farmaci alla sintesi di protocolli sperimentali – questo equivoco può avere conseguenze concrete; il NIST AI 600-1 richiama esplicitamente la necessità di governare queste assunzioni implicite.
Strumento quantitativo. L’IA esegue classificazioni, regressioni e analisi di pattern su dataset intrattabili per il solo ricercatore umano. Il rischio è che la scalabilità non distingua tra segnale robusto ed errore sistematico: più il dataset è grande e l’analisi automatizzata, più diventa difficile individuare il punto in cui il sistema ha cominciato a misurare qualcosa di diverso da ciò che il ricercatore intendeva misurare.
Arbitro. Il caso più critico: l’IA viene chiamata a valutare il merito scientifico di contributi e manoscritti. Qui non si esternalizza un compito computazionale, ma il giudizio stesso. L’AI Act europeo classifica questi sistemi tra quelli ad alto rischio; le linee guida dell’ERA Forum raccomandano esplicitamente che l’IA generativa non assuma un ruolo sostanziale nella valutazione del merito scientifico. Il rischio è un cortocircuito: il consenso scientifico si cristallizza attorno a ciò che il modello considera plausibile, non a ciò che l’evidenza supporta.

Il caso Parisi-Zamponi

Un caso esemplare è quello del Premio Nobel Giorgio Parisi e Francesco Zamponi, che hanno pubblicato su arXiv la dimostrazione di una relazione osservata numericamente da oltre dodici anni ma mai provata analiticamente. La dimostrazione, dichiarano gli autori, è stata ottenuta attraverso un’interazione strutturata con Claude e successivamente verificata da loro. Dalla trascrizione resa pubblica da Parisi emerge un dialogo di circa quaranta turni: il modello propone una strategia dimostrativa, il ricercatore ne individua un errore, il modello corregge, il ricercatore reindirizza. In un passaggio cruciale, Claude aveva utilizzato un principio in modo non applicabile al contesto; gli autori hanno notato l’errore e proposto un approccio alternativo. La prova finale è emersa da questa interazione.

Il caso è istruttivo non perché mostri che un LLM può fare matematica avanzata, ma perché rende visibile la condizione che rende il risultato scientificamente accettabile: la validità di ciascun passaggio è stata sottoposta a verifica indipendente da parte di esperti in grado di riconoscerne gli errori. Questo è il punto di confine tra uso assistivo e delega.

I rischi lungo la pipeline

I rischi degli LLM non sono uniformi: variano a seconda della fase della pipeline scientifica e del costo dell’errore associato. Una governance credibile deve quindi distinguere tra uso esplorativo, produzione di contenuto, gestione dei dati, analisi e valutazione.

Ricerca bibliografica: l’LLM può accelerare sintesi ed esplorazione, ma può produrre citazioni inventate, appiattire le controversie e recidere il nesso tra affermazione e fonte. Un controllo minimo richiesto è la verifica manuale sulle fonti primarie.
Metodo e ipotesi: il modello può generare molte opzioni senza distinguere tra ipotesi falsificabili, ipotesi vaghe e mere riformulazioni linguistiche. Occorre esplicitare le assunzioni, confrontarle con la letteratura primaria e chiedere al modello di separare ciò che è ipotesi da ciò che è procedura.
Gestione dei dati: fase particolarmente delicata. Errori introdotti a monte si propagano invisibilmente in tutte le analisi successive. Leakage di dati sensibili, contaminazione tra set e uso improprio di dati non autorizzati sono rischi da governare con classificazione preventiva e policy istituzionali.
Coding e analisi: il codice generato può contenere vulnerabilità non rilevate, dipendenze obsolete o pacchetti inesistenti. La ricerca empirica conferma che l’assistenza AI aumenta la produttività, ma non elimina le vulnerabilità: servono test automatizzati, revisione profonda e riproducibilità dell’ambiente software.
Scrittura e comunicazione: il rischio non è solo che il testo contenga errori, ma che renda più difficile distinguere tra interpretazione, evidenza e speculazione. L’editing linguistico va separato dalla produzione di contenuto scientifico.
Peer review: i rischi sono i più seri, perché riguardano materiali non pubblici e giudizi valutativi. Il divieto di caricare manoscritti o revisioni riservate su servizi non approvati non va considerata una raccomandazione, ma un vincolo di integrità con implicazioni etiche e legali.

Quattro controlli per una governance responsabile

L’uso degli LLM nella ricerca comporta un rischio sistemico sottile: l’illusione di comprensione. Ricevere risposte fluide e persuasive può far credere di aver capito davvero un problema, senza che questo emerga nel risultato finale. Quattro controlli riducono il rischio lungo tutta la pipeline.

Provenance e versionamento: ogni interazione rilevante con un LLM va registrata — prompt, input, versione del modello, data e test eseguiti. Senza questa traccia, il processo non è riproducibile.
Separazione tra bozza e risultato: il passaggio da output generato a risultato scientifico richiede prove esterne e validazione indipendente. La separazione deve essere esplicita e deliberata.
Disclosure e responsabilità: il modello non è autore; la responsabilità intellettuale resta umana. L’uso va dichiarato dove richiesto da riviste, atenei e processi editoriali.
Protezione dei materiali riservati: manoscritti non pubblicati, dati sensibili e revisioni confidenziali non devono essere caricati su strumenti non approvati dall’istituzione.

Un’adozione progressiva, non binaria

Le scelte estreme — divieto assoluto o adozione senza criteri — comportano entrambe rischi significativi. Una strategia realistica procede per livelli: uso assistivo a basso rischio, come revisione linguistica e sintesi di fonti verificabili; integrazioni controllate a scala di gruppo o dipartimento; adozione strutturata con logging standardizzato, strumenti approvati e governance istituzionale.

Il quadro di riferimento comprende l’AI Act (Regolamento UE 2024/1689), le linee guida UNESCO per l’istruzione superiore e, per chi opera nella ricerca europea, le living guidelines della Commissione Europea sull’uso responsabile dell’IA generativa, aggiornate dall’ERA Forum alla terza versione nel maggio 2026.

La bussola è il workflow, non il modello

L’integrazione degli LLM nella ricerca scientifica non è un semplice aggiornamento strumentale: è una trasformazione socio-tecnica che ridefinisce i costi del lavoro cognitivo e i criteri di attribuzione della responsabilità intellettuale. Il caso Parisi-Zamponi offre in questo senso una bussola: non dimostra che gli LLM possono sostituire il ricercatore, ma mostra che un risultato ottenuto con il contributo sostanziale di un modello è scientificamente accettabile solo se il percorso che lo ha prodotto rimane tracciabile, verificabile e attribuibile a responsabilità umane definite.

Il criterio discriminante non è la potenza del modello: è il rapporto tra beneficio atteso, costo dell’errore e solidità dei controlli che circondano il sistema. Gli LLM evolveranno rapidamente. La responsabilità ultima, però, resterà umana — e sarà tanto più efficace quanto prima le istituzioni scientifiche avranno elaborato politiche chiare, condivise e verificabili.

Il presente articolo costituisce una sintesi di un documento più ampio, che include i riferimenti alle principali fonti consultate. La versione integrale è scaricabile qui.