Sulla copertina della rivista americana Newsweek del 3 giugno 2007 campeggiava la fotografia di Craig Venter, lo scienziato che aveva capitanato la molto discussa iniziativa privata di sequenziamento del genoma umano, corredata dalla espressione a caratteri cubitali «Playing God». Il monito si riferiva alla sostituzione dell’intero genoma del batterio Mycoplasma mycoides in una cellula di Mycoplasma capricolum  svuotata del proprio genoma, con il conseguente ottenimento di colonie batteriche di M. mycoides. Questa stessa frase, «Giocare a fare Dio», fu utilizzata dal Telegraph il 20 maggio del 2010, allorché lo stesso gruppo di ricerca ottenne colonie vitali di M. mycoides utilizzando una sequenza genomica di oltre 1 milione di paia di basi (bp) di DNA prodotto interamente per via sintetica. Questa pubblicazione segnò di fatto la nascita della genomica sintetica; ed era così stigmatizzata la hybris degli scienziati che si arrogano il diritto di oltrepassare i confini della natura, con tutte le implicazioni etico-filosofiche e religiose che ciò comporterebbe. Questa reazione è ricorrente nella storia di conquiste scientifiche epocali, specialmente in biologia. Basti pensare all’ingegnerizzazione enzimatica delle prime molecole di DNA ricombinante, che apriva alla possibilità di ottenere organismi con patrimonio genetico modificato, e alla conseguente conferenza di Asilomar del 1975, al termine della quale in mondo scientifico, autonomamente, stabilì linee guida chiare e rigorose per la ricerca molecolare di virus ed esseri viventi. Oppure al dibattito seguito alla produzione nel 1996 della famosa pecora Dolly, il primo mammifero clonato a partire da una cellula somatica, e quindi ottenuta senza il processo di fecondazione. Senza dimenticare, nel 2018, il caso delle gemelle cinesi modificate geneticamente, mediante la tecnologia CRISPR-Cas9, per renderle resistenti al virus HIV. 

La genomica sintetica avrà un impatto epocale per tutte le scienze della vita: è questa la tesi che ci proponiamo di dimostrare. Lo faremo attraverso due contributi complementari: nel primo, presentiamo il razionale e le metodiche generali della genomica sintetica; nel secondo, discuteremo i principali risultati raggiunti, le prospettive più promettenti e le implicazioni etiche e filosofiche legate a questo campo emergente. Per non appesantire troppo la lettura abbiamo inserito a fondo testo un breve glossario con alcune definizioni essenziali.

Dalla genomica alla genomica sintetica

La genomica, la disciplina che studia la complessità, la struttura e la funzionalità dell’insieme del materiale genetico (DNA) degli organismi viventi, è diventata la disciplina centrale di tutte le scienze della vita. Il suo sviluppo ha rappresentato una vera e propria rivoluzione scientifica e culturale, che ha trasformato radicalmente il modo in cui si svolge la ricerca, spostando il focus da singoli geni o specifiche sequenze di regolazione all’analisi e al confronto di interi genomi. Un processo che è stato possibile grazie all’implementazione di metodi sempre più efficaci di lettura delle sequenze di DNA tramite sequenziatori automatici a elevata processività, che hanno accelerato l’analisi e abbattuto i costi. Con la produzione di un’enorme quantità di dati di sequenza, le scienze della vita sono state proiettate nell’era della digitalizzazione e dei big data. Vale la pena ricordare che la genomica moderna è l’eccezionale eredità del cosiddetto Progetto del Genoma Umano, uno straordinario successo scientifico che ha impegnato decine di gruppi di ricerca in numerosi Paesi e che, nell’aprile 2001, ha portato alla prima bozza del genoma umano, la cui complessità è pari a circa 3,1 miliardi di bp.

La caratteristica fondamentale della genomica risiede nella straordinaria capacità di “leggere” il genoma e di interpretarlo, estrapolando e astraendo dalla sequenza le regole alla base del funzionamento di cellule e organismi; questa capacità ha consentito di ricavare enormi conoscenze sulla sua organizzazione, la sua composizione, le differenze tra specie e tra individui della stessa specie.

Permangono tuttavia significative lacune nella comprensione della funzionalità del genoma e del significato evolutivo delle differenze osservate tra specie e individui, in particolare per quanto riguarda le sequenze di DNA non codificanti e di quelle ripetute – sbrigativamente etichettate un tempo come “DNA spazzatura” – che costituiscono la maggior parte del genoma degli eucarioti superiori, e l’importanza della loro posizione nel genoma.

Una nuova e potente chiave di interpretazione, foriera di imprevedibili applicazioni, può derivare dal passaggio da “lettura” del genoma a “scrittura” del genoma, o almeno di parti di esso, attraverso l’applicazione della genomica sintetica. Essendo una molecola chimica, il DNA può infatti essere prodotto con sequenze predeterminate per via chimica ed enzimatica; un DNA di sintesi, insomma. Dalla pubblicazione della sintesi del genoma di M. mycoides, questa capacità si è sviluppata in modo straordinario: dalla sintesi di genomi relativamente piccoli si è passati alla costruzione di genomi batterici molto più complessi, alla sostituzione di cromosomi naturali con cromosomi artificiali in lievito e in cellule di mammifero, rendendo la genomica sintetica una realtà con la quale è sempre più necessario confrontarsi.

Nel 2016 fu lanciato, tra iniziali polemiche per scarsa trasparenza, il Genome Project-write (GP-write), inteso come seguito logico del Human Genome Project. GP-write, tutt’ora operativo, è coordinato dal Center of Excellence for Engineering Biology, un’organizzazione no profit. Attualmente sono affiliate al progetto oltre 100 istituzioni e aziende biotecnologiche appartenenti a 17 Paesi. Al momento l’Italia non è direttamente coinvolta, anche se bisogna dire che è al centro del progetto Genome of Europe, volto a sequenziare 500.000 genomi umani e nel quale l’italiano Human Technopole, l’infrastruttura bioinformatica Elixir-Italy e il Centro Cardiologico Monzino di Milano  sono partner fondamentali.

L’obiettivo di GP-write è ambizioso ma chiaro: progettare e costruire genomi artificiali, come potente strumento conoscitivo, ma anche per produrre organismi con nuove funzionalità o per potenziare quelle biologiche già esistenti.

Perché genomica sintetica

In architettura, lo studio degli edifici esistenti aiuta a ottenere una buona comprensione dei principi di statica ed equilibrio. In questo modo si possono acquisire le regole che governano la progettazione di un edificio semplicemente osservando i maestri del passato. La comprensione del ruolo dei muri portanti, dei pieni e dei vuoti, la configurazione di una villa o di una chiesa diventano perciò più intuitivi quanto più ci si addentra nello studio della materia. Al tempo stesso, però, studiare edifici progettati da altri architetti non fornisce la piena comprensione di ogni singolo elemento, degli ornamenti non essenziali e di quelli che potrebbero essere visti come specificità stilistiche figlie del gusto dell’epoca. In modo simile, lo studio dei genomi esistenti in natura fornisce informazioni fondamentali per la comprensione del funzionamento di cellule e organismi, le regole alla base del loro metabolismo e la corrispondenza tra geni e funzioni vitali. Al contempo, però, così come non si capisce appieno un progetto realizzato da altri, studiare la genomica con un approccio a posteriori non permette di investigare fino in fondo i rapporti di causalità tra gli elementi di un genoma: perché certi geni sono vicini o lontani? Perché la loro espressione è spesso regolata in modi che ci appaiono complessi e poco intuitivi? Quali sono le regole alla base degli ampi segmenti di DNA di ignota funzione e che cosa succederebbe se questi non fossero presenti nel genoma di una cellula?

Per rispondere a tutte queste domande risulta inadeguato e spesso riduzionista un approccio classico su una definizione di un sistema (una via metabolica cellulare, i geni su un cromosoma, …) dal quale sono necessariamente escluse variabili che potrebbero essere rilevanti. Al contrario, l’approccio sintetico si propone di investigare questi aspetti partendo dall’altro estremo, progettando e costruendo un sistema di cui tutte le variabili sono note e governandone i rapporti di causalità e correlazione. Difficile vedere in questo una sostituzione a Dio: piuttosto si propone di investigare la natura da un’altra prospettiva. È naturale che dalla modificazione del nostro materiale genetico emergano tecnologie di interesse più ampio: essere in grado di costruire genomi, per esempio, potrebbe consentire di progettare cellule terapeutiche con il numero di geni minimo per una determinata funzione; si potrebbe sperare nel trattamento di malattie che interessano ampie sezioni di un cromosoma, correntemente intrattabili, ideare piante con nuove caratteristiche, accelerare il miglioramento genetico.

I pilastri della genomica sintetica

Le metodologie di genomica sintetica sono in continuo e rapido sviluppo, ma partono tutte da un approccio dal basso, volto a costruire frammenti di DNA e riunirli insieme in sequenze contigue. Ciò è molto differente dall’approccio del genome editing, che è invece basato sulla modifica diretta e precisa di sequenze specifiche. In genomica sintetica si possono distinguere tre passaggi fondamentali.

Progettazione del genoma o di singoli cromosomi

Questa prima fase è fondamentale per determinare quali sequenze debbano essere presenti, quali caratteristiche debbano avere, come debbano essere diverse dalle sequenze naturali, quali porzioni siano da eliminare. In questa fase è necessario inserire anche particolari marcatori, ovvero brevi sequenze, che permettano di selezionare le cellule che li conterranno, oppure consentano di distinguere le porzioni sintetiche da quelle naturali. Tutto ciò dipende dagli obiettivi fissati e dalla definizione di sintetico rispetto alla quale si lavora. In ogni caso, la progettazione avviene interamente a tavolino, con l’applicazione di complesse analisi matematiche e bioinformatiche. L’efficacia di questa prima fase dipende dalla qualità delle informazioni di sequenza disponibili. A questo riguardo occorre tenere conto che il sequenziamento e la ricostruzione di un genoma sono sempre un risultato empirico che non è scevro da errori. La crescita esponenziale di piattaforme di intelligenza artificiale (IA), sempre più efficienti e mirate, ha già accresciuto la velocità e la precisione di questa fase iniziale. Nello scorso mese di marzo, per esempio, è stato pubblicato un lavoro scientifico che ha utilizzato per la prima volta una nuova piattaforma per l’analisi genomica chiamata Evo 2, sviluppata da NVIDIA Corporation, con sede in California, sul modello di ChatGTP: si basa sull’informazione relativa a oltre 9.000 miliardi di nucleotidi (!), derivati dalle sequenze complete di 128.000 genomi rappresentanti tutti i domini della vita.  

Sintesi chimica ed enzimatica di interi genomi batterici o cromosomi eucariotici

Al momento, la tecnologia per sintetizzare chimicamente un frammento di DNA con sequenza voluta consente di produrre brevi tratti non superiori a poche centinaia di nucleotidi. Si intuisce immediatamente il perché si adotti un approccio gerarchico che, partendo dalla sintesi chimica di centinaia di migliaia di brevi sequenze (oligonucleotidi) relative a porzioni contigue nel genoma, combinando metodi enzimatici e cellulari, i frammenti siano man mano allungati fino a raggiungere le dimensioni di centinaia di migliaia di bp. Un intenso lavoro di sequenziamento dei frammenti consente di verificare che essi abbiano la sequenza progettata. I frammenti contigui contengono alle loro estremità brevi porzioni di sequenza sovrapposte che, attraverso meccanismi di ricombinazione molecolare, saldano i frammenti contigui, secondo un processo iterativo. Con esperimenti in vitro si possono così ottenere frammenti di alcune migliaia di bp. Per raggiungere dimensioni pari o superiori a 100.000 bp, l’ultimo passaggio dell’allungamento è ottenuto inserendo in cellule di lievito (Saccharomyces cerevisiae) frammenti adiacenti da unire. La ricombinazione molecolare è promossa dai meccanismi cellulari di ricombinazione delle cellule di lievito.

Nel caso di genomi batterici, una volta prodotto, l’intero genoma sintetico è inserito in una cellula batterica privata del proprio nucleo, ottenendo una cellula viva sotto il controllo del nuovo genoma sintetico.

Le grandi dimensioni, l’organizzazione del DNA nel nucleo, la presenza di diploidia (una copia per ogni cromosoma), la presenza di introni, la regolazione di trascrizione e traduzione, nonché la struttura cellulare complessa dei genomi degli animali e delle piante richiedono importanti e complicati adattamenti alle tecnologie sviluppate nei batteri. Innanzitutto, poiché negli eucarioti, anche in quelli monocellulari come il lievito, il genoma è organizzato in cromosomi, la strategia si basa sulla sintesi di singoli cromosomi (o di porzioni degli stessi) i quali, sempre sfruttando i meccanismi di ricombinazione cellulare, sostituiscono man mano i cromosomi naturali. Questa strategia è stata applicata con successo per la prima volta nel 2017 in lievito (circa 13 milioni di bp organizzate in 16 cromosomi). Una volta ottenuti frammenti di qualche migliaio di bp secondo schemi simili a quelli descritti per i batteri, questi frammenti sintetici sostituiscono le porzioni corrispondenti dei cromosomi naturali tramite ricombinazione omologa, tra le sequenze sintetiche e le sequenze naturali.

Caratterizzazione cellulare

Una volta ottenute le cellule vitali con genomi o cromosomi sintetici, si procede con un’intensa caratterizzazione cellulare e genetica per verificare che i genomi (o i cromosomi) sintetici siano trasmessi in modo regolare da una generazione cellulare a quella successiva e soprattutto per identificare i tratti cellulari acquisiti o persi e il loro impatto sulla sopravvivenza delle cellule sia in condizioni fisiologiche sia in condizioni sperimentali.

Queste le basi storiche e scientifiche della genomica sintetica. Ma qual è il suo stato attuale, e quali le possibili prospettive? Abbiamo affrontato qui questi aspetti, unendo anche una riflessione etico-filosofica su questo nuovo, rivoluzionario campo della biologia.

Glossario

  • Bioinformatica. La bioinformatica è una disciplina scientifica interdisciplinare che combina informatica, matematica e biologia per analizzare e interpretare dati biologici complessi. Si concentra sullo sviluppo di algoritmi, software e strumenti per gestire, elaborare e visualizzare informazioni biologiche, come sequenze di DNA, strutture proteiche, dati genomici, ecc.

  • Cromosomi. Strutture lineari nelle quali è organizzato il materiale genetico degli organismi superiori. Sono composti da DNA complessato a specifiche proteine chiamate istoni. Ogni specie è caratterizzata da un numero di cromosomi specifico. I cromosomi sono visibili con colorazioni appropriate in fasi particolari del ciclo cellulare. Nella maggior parte dei batteri e archaea il materiale genetico è presente come molecola di DNA circolare a doppia elica, nudo, ovvero non complessato a proteine.

  • DNA. Molecola organica polimerica che contiene l’informazione genetica di tutti gli organismi. Il DNA presente nelle cellule ha una struttura a doppia elica, ciascuna delle quali è un polimero i cui elementi costitutivi sono quattro nucleotidi, molecole che comprendono un gruppo fosfato, uno zucchero e un elemento aromatico definito base azotata. La caratteristica fondamentale che differenzia un nucleotide dall’altro è il tipo di base, indicate come A (adenina), T (timina, G (guanina) e C (citosina). Quindi la specificità di un’elica di DNA è data dal tipo di basi che si susseguono e per questo motivo spesso si fa riferimento alle basi e non ai nucleotidi. La struttura a doppia elica, che dà grande stabilità alla molecola, è determinata dalla formazione di specifici legami tra le basi, ovvero A-T e G-C. Questa specificità è definita complementarietà delle basi, e descrivendo il DNA ci si riferisce spesso a coppia di basi (in inglese base pairs – bp). La complementarietà tra le basi fa sì che, conoscendo la sequenza di un’elica, si deduce immediatamente la sequenza dell’altra elica complementare.

  • Flusso dell’informazione genetica. Questa espressione indica il passaggio dell’informazione genetica contenuta nel DNA alla produzione delle varie tipologie di RNA coinvolte nella sintesi delle proteine o coinvolte in diversi sistemi di regolazione della funzionalità dei geni (trascrizione del DNA in RNA), e infine alla sintesi proteica (traduzione di RNA messaggeri in proteine).

  • Genoma. Il genoma è l’insieme del materiale genetico, ovvero DNA, presente in una cellula, in un individuo o di una specie, a seconda del punto di osservazione. Il genoma può essere visto come il potenziale funzionale della cellula, dello specifico individuo o della specie. È descritto in termini di complessità, ovvero il numero di paia di basi che lo compongono. Per convenzione la complessità dei genomi è stimata sull’assetto aploide del genoma, ovvero, negli organismi superiori, dall’assetto dei gameti. Le cellule del corpo, le cellule somatiche, hanno una complessità doppia. Negli organismi superiori la complessità dei genomi non è lineare rispetto alla complessità funzionale della specie. Basti considerare che la complessità del genoma umano è stimata in 3,1 miliardi di paia di basi (3,1 Gigabp) rispetto a quella del grano tenero che è stimata in 14,5 miliardi di paia di basi (14,5 Gbp). Finché non è stato possibile sequenziare il genoma di individui appartenenti alla stessa specie si pensava che ogni specie avesse un genoma con complessità costante. Si è invece scoperto che in ogni specie esiste un genoma condiviso, definito core genome, e una quota caratteristica per ogni individuo, definita “genoma non indispensabile” (dispensable genome). Conseguentemente, le differenze genomiche tra individui dipendono sia dalla variazione nella sequenza di nucleotidi, sia dalla presenza/assenza, e posizione, di porzioni di DNA.

  • Genome editing. Termine inglese che si riferisce alla possibilità di modificare la sequenza di DNA in modo mirato e specifico. Attualmente il metodo più efficace e semplice si basa sul sistema CRISPR-Cas.

  • Ricombinazione omologa. Il processo che determina lo scambio di materiale genetico (ricombinazione) tra due molecole di DNA uguali o simili (omologhe). In natura avviene durante la meiosi o nei meccanismi di riparazione del DNA danneggiato. Il meccanismo di ricombinazione molecolare è sfruttato in molti approcci di biologia molecolare e di biologia sintetica. 

  • Sequenziamento del DNA. L’insieme di metodologie diverse utilizzate per determinare l’ordine preciso dei nucleotidi, cioè i blocchi costitutivi, di un tratto di DNA.

  • Trasformazione genetica artificiale. L’insieme di tecniche usate per introdurre sequenze genetiche nuove o modificate nel genoma di un organismo in modo deliberato.