I macachi sono i più diffusi tra i primati non umani, comprendendo più di 20 specie che si sono differenziate tra loro fino a 5-6 milioni di anni fa2. Il genere Macaca è strettamente legato all’uomo, condividendo un ultimo antenato comune ∼25 milioni di anni fa3. La stretta relazione tra esseri umani e macachi ha reso diverse specie interessanti come modelli animali per diverse analisi biomediche. Anche se la sottospecie indiana del macaco rhesus (Macaca mulatta mulatta) era originariamente il modello di ricerca di scelta, un divieto di esportazione di questo macaco ha ridotto notevolmente la disponibilità di questi animali, portando ad un aumento dell’uso di altre specie e/o sottospecie di macaco, in particolare il macaco rhesus cinese (CR) (Macaca mulatta lasiota) e il macaco cynomolgus o mangia granchi (CE) (Macaca fascicularis).

Abbiamo sequenziato i genomi di una femmina di macaco CR e di una femmina di macaco CE utilizzando una strategia di shotgun whole-genome su una piattaforma di sequenziamento di prossima generazione. Brevemente l’analisi della sequenza del genoma mitocondriale ha verificato l’origine prevista di entrambi gli individui (Sezione supplementare 1). Abbiamo poi costruito 19 e 18 librerie di DNA genomico multiple paired-end con dimensioni gradualmente crescente inserto per il macaco CR e CE macaco, rispettivamente. La dimensione totale dei genomi assemblati del macaco CR e del macaco CE era, rispettivamente, ∼2.84 Gb e 2.85 Gb, fornendo una copertura di 47 volte e 54 volte, rispettivamente, in media (Tabella 1 e Sezione supplementare 1). Le impalcature sono state assegnate ai cromosomi in base alla sintenia visualizzata con le sequenze del macaco indiano (IR)4 e del genoma umano. Circa il 97% delle impalcature macaco CR e il 92% delle impalcature CE macaco potrebbe essere collocato su cromosomi. Abbiamo anche applicato RNA-seq per profilare le trascrizioni in vari tessuti da un macaco IR e due macachi CE (metodi online). Un’analisi integrata che combina i dati genomici e del trascrittoma è stata poi utilizzata per definire la struttura dei trascritti e accertare il profilo di espressione di ogni gene (Sezione supplementare 2).

Tabella 1 Sequenziamento del genoma e statistiche di assemblaggio

La diversità genetica dei macachi è stata valutata attraverso il confronto del genoma intero e l’allineamento di letture brevi usando il genoma del macaco IR come riferimento. In totale, abbiamo rilevato >20 milioni di differenze a singolo nucleotide e 740.827 eventi indel nelle tre specie o sottospecie di macaco (Sezione supplementare 3), che fornirà un’abbondante eterogeneità genetica da utilizzare in future applicazioni e analisi biomediche. Abbiamo classificato tutti i siti variabili a singolo nucleotide in tre classi (varianti condivise, fisse e uniche) in base alla loro presenza o assenza nei tre individui (Fig. 1a). Le varianti uniche comprendevano >71,7% delle varianti totali, il che non è sorprendente dato che anche all’interno di una popolazione panmica, il 44% degli alleli dovrebbe essere singleton in un campione di tre individui. È degno di nota il fatto che un gran numero di differenze genetiche sono state condivise tra almeno due macachi. Usando solo le variazioni fisse e uniche, abbiamo stimato che il più alto tasso di divergenza, 0,40%, era tra il macaco CE e il macaco IR (Fig. 1b). Tuttavia, la divergenza di sequenza tra il macaco CE e il macaco CR (0,34%), anche se nominalmente diverse specie, era vicina a quella osservata tra le sottospecie, il macaco CR e il macaco IR (0,31%).

Figura 1: Divergenza a singolo nucleotide tra specie/sottospecie di macaco.

(a) Classificazione della divergenza a singolo nucleotide tra specie di macaco. I ∼20 milioni di differenze a singolo nucleotide tra i macachi sono stati classificati in tre sottoclassi. Le regioni sovrapposte rappresentano varianti eterozigote condivise tra due individui o tra tutti gli individui. U, varianti eterozigote uniche evidenti in ogni specie; F, il numero di varianti omozigote fisse in ogni specie. (b) Divergenza del singolo nucleotide tra le specie di macaco in finestre di 100 kb attraverso il genoma. Le varianti eterozigote sono state ignorate in questo calcolo. La divergenza dei cromosomi X tra le due sottospecie di macaco rhesus era un outlier significativo (P < 0,05, test di Grubbs). CE, macaco mangiatore di granchi; CR, macaco rhesus cinese; IR, macaco rhesus indiano.

Recenti ricerche basate su dati di sequenza limitati hanno suggerito che un’antica introgressione può essere avvenuta dai macachi CR ai macachi CE che vivono in una zona di distribuzione geografica sovrapposta nella penisola indo-cinese5,6,7. I due genomi sequenziati ci hanno permesso di quantificare l’influenza di questa introgressione a livello dell’intero genoma. In particolare, abbiamo esplorato se un segnale di DNA coerente con l’ibridazione interspecie era evidente all’interno dei genomi del macaco CR e del macaco CE. Abbiamo calcolato il rapporto di divergenza tra il macaco CE e il macaco CR e lo abbiamo confrontato con il rapporto di divergenza tra il macaco CR e il macaco IR per finestre di 50 kb attraverso i genomi allineati (Sezione 4 supplementare). Per questi calcoli, abbiamo ignorato le variazioni nei siti CpG perché sono noti per evolvere particolarmente rapidamente. Oltre il 27% delle finestre ha mostrato un rapporto di divergenza inferiore a zero, suggerendo che i macachi CE e CR sono più strettamente correlati rispetto alle sottospecie CR e IR in queste regioni (Sezione supplementare 4). Inoltre, >93% delle finestre genomiche da 50 kb hanno mostrato un tasso di divergenza inferiore tra i macachi CE e CR rispetto ai macachi CE e IR. Pertanto, i polimorfismi ancestrali non ordinati non potrebbero spiegare interamente l’alta percentuale di regioni incoerenti osservate tra il macaco CE e il macaco CR. Inoltre, combinando precedenti dati di polimorfismo a singolo nucleotide (SNP) dalle popolazioni di macachi IR e CR con i dati dei nostri stessi individui di macachi CR e CE sequenziati8, abbiamo notato che il nostro individuo di macaco CE si è raggruppato all’interno della popolazione di macachi CR (Sezione supplementare 4). Questo supporta la presenza di un forte flusso genico dal CR al genoma del macaco CE. Esaminando il grado di asimmetria nella divergenza tra il CE e il macaco CR e tra il CE e il macaco IR, abbiamo stimato che ∼30% del genoma del macaco CE è di origine del macaco CR (Sezione supplementare 4).

Abbiamo poi cercato di identificare le regioni di introgressione putativa (PIR) nel genoma del macaco CE che potrebbero aver contribuito al flusso genico. Abbiamo usato dati simulati (sotto un modello neutro di assenza di migrazione) come controllo (Metodi online e Sezione supplementare 4), e abbiamo identificato 8.942 PIR che coprono 778 Mb con un tasso di divergenza inferiore al previsto tra il CE e il macaco CR (Fig. 2a,b). Dopo aver unito i PIR sovrapposti, abbiamo scoperto che la maggior parte dei PIR (>98%) erano più corti di 500 kb. Poiché la distribuzione della lunghezza dei PIR è una funzione del tempo da quando si è verificato il flusso genico9, la prevalenza di PIR brevi suggerisce che il flusso genico si è verificato in un lungo periodo di tempo evolutivo ed è improbabile che sia stato semplicemente una conseguenza del flusso genico molto recente mediato dall’uomo. Abbiamo anche osservato una marcata differenza di variabilità tra i cromosomi X e autosomici (Sezione supplementare 4), che potrebbe essere il risultato di un flusso genico guidato dall’uomo. Un probabile fattore che contribuisce al flusso genico ristretto da femmine macaco CR ai maschi macaco CE è che le femmine macaco CR esibiscono marcata stagionalità ovarica e solo copulare durante l’ovulazione, mentre le femmine macaco CE non mostrano distinte stagionalità riproduttiva e rimangono sessualmente ricettivi tutto l’anno 10. Inoltre, dato che la dispersione è principalmente guidata dai maschi nei macachi a causa della filopatria femminile, questo potrebbe anche spiegare il flusso genico dai maschi di macaco CR alle femmine di macaco CE e l’assenza del contrario. Queste popolazioni possono quindi essere interessanti per studiare gli aspetti fisiologici e comportamentali della riproduzione tra specie diverse.

Figura 2: Tasso di divergenza e regioni di sweep selettivo.

(a) La distanza genetica tra macachi (curva blu), umani e macachi (curva rossa), e la distanza tra specie/sottospecie di macachi (curva verde per IR e CR; curva gialla per CR e CE) sul cromosoma 14. La linea rossa tratteggiata rappresenta la distanza genetica media tra umani e macachi. La linea blu tratteggiata rappresenta la distanza genetica media tra i macachi. Le barre rosse in basso denotano le regioni candidate di spazzata selettiva, e le barre blu denotano le regioni di introgressione putativa. Le regioni consecutive che contengono zero mutazioni in tutte le specie (come la regione di ∼20 Mb) sono lacune di sequenziamento o di allineamento. (b) Una regione di potenziale introgressione (ombreggiata in blu), che contiene meno variazioni tra CE macaco e CR macaco che tra i due macachi rhesus (IR macaco e CR macaco). (c) Una regione di sweep selettivo, che comprende 400 kb, che contiene solo un gene. La barra rossa denota la regione codificante del gene SBF2; il riquadro rosso ombreggiato corrisponde all’estensione del putativo sweep selettivo.

La forte selezione a favore di nuovi alleli vantaggiosi si traduce in uno ‘sweep selettivo’ che riduce la diversità genetica rispetto alle regioni non selezionate. Abbiamo sviluppato un algoritmo per identificare le regioni putative di sweep che contengono una variazione ridotta tra le tre specie/sottospecie di macachi, e abbiamo generato dati simulati sotto l’ipotesi di un modello neutro per valutarne la significatività statistica (Metodi online e Sezione supplementare 5). Abbiamo identificato 217 forti regioni di spazzata selettiva che mostravano un livello ridotto di variazione tra i macachi e che si discostavano sostanzialmente dall’aspettativa neutrale (Fig. 2c, Sezione supplementare 5 e Tabella supplementare 17). In particolare, una delle dieci più grandi regioni di spazzata selettiva, situata sul cromosoma 14 del macaco, contiene solo un gene, il fattore di legame SET 2 (SBF2) (Fig. 2c). Pertanto, è probabile che questo gene, che codifica una proteina di membrana periferica della famiglia delle proteine fosfatasi tirosiniche, sia stato il bersaglio della selezione positiva durante la prima evoluzione dei macachi. Di potenziale interesse biomedico, i difetti nell’ortologo SBF2 umano causano una forma demielinizzante autosomica recessiva della malattia di Charcot-Marie-Tooth (CMT4B2).

Per rivelare i potenziali obiettivi della selezione positiva in ogni ramo del macaco, abbiamo assegnato 14.978 ortologhi genici 1:1 per l’uomo, lo scimpanzé e le tre specie/sottospecie di macachi mediante allineamento del genoma (Sezione supplementare 6). Il confronto dei trio di ortologhi dei macachi ha rivelato che essi condividono un livello estremamente elevato di somiglianza di sequenza nucleotidica all’interno delle regioni geniche. È degno di nota il fatto che il 20,7% degli ortologhi mostra un più alto grado di somiglianza tra il macaco CR e il macaco CE rispetto a quello tra il macaco CR e il macaco IR, il che può implicare l’influenza dell’introgressione. Il confronto delle categorie di geni basato su Gene Ontology tra i lignaggi Macaca, Hominid e Murid ha indicato che i processi basati sui microtubuli e il percorso di segnalazione del recettore dell’insulina si sono evoluti particolarmente rapidamente nel lignaggio Macaca (Sezione supplementare 6). I test di rapporto di verosimiglianza basati su un modello di sito del ramo hanno rivelato 16 geni selezionati positivamente specificamente nel ramo del macaco IR, 7 nel ramo del macaco CR e 13 nel ramo del macaco CE (Sezione supplementare 6). È intrigante che 31 dei 36 geni selezionati positivamente nei macachi codificano proteine di legame che svolgono ruoli importanti nella regolazione dell’espressione genica. Vale anche la pena notare che due geni che codificano proteine del dendrite, CLCN2 nella stirpe dei macachi IR e la proteina associata al citoscheletro (ARC) regolata dall’attività nella stirpe dei macachi CE, hanno subito una selezione positiva. Questi due geni, insieme ad altri cinque geni selezionati positivamente, sono già noti per essere rilevanti per le malattie genetiche umane, indicando la probabile importanza delle loro funzioni biologiche.

La disponibilità delle sequenze del genoma del macaco CR e del macaco CE ci ha permesso di valutare la loro diversità genetica, così come le differenze genetiche tra i macachi e gli esseri umani, che è importante dato l’uso prominente dei macachi nella ricerca biomedica. I confronti tra i genomi dei macachi hanno rivelato l’assenza di 25 geni umani a copia singola (Metodi online e Sezione 6 supplementare), compreso un gene recettore delle chemochine, IL32, che può avere un ruolo nelle risposte immunitarie innate e adattative, ed è quindi importante da considerare quando questi macachi sono utilizzati in studi sulle malattie infettive. Inoltre, un totale di 170 geni legati alla malattia o all’immunità in una o un’altra specie di macachi contengono mutazioni frameshift o codoni di stop prematuri, che si presume abbiano pseudogenizzato questi geni (Sezione supplementare 6). L’autenticità di queste mutazioni troncanti è supportata sia dai dati del trascrittoma che dalle letture di sequenziamento ad alta profondità, così come dalla convalida indipendente della PCR. Trentadue di questi geni funzionano in percorsi di immunità e sembrano essere stati persi nei macachi. Per esempio, un importante gene dell’immunità innata, DEFA4, che codifica uno dei peptidi microbicidi e citotossici prodotti dai neutrofili11, è stato pseudogenizzato in tutti e tre i macachi a causa della perdita del suo primo esone. Inoltre, il gene Toll-like receptor 4 (TLR4) conteneva una delezione di 1 bp, che genera un codone di stop prematuro nel suo terzo esone in tutti e tre i macachi (Sezione supplementare 6). TLR4 è stato segnalato per essere stato sotto selezione positiva nei primati del Vecchio Mondo12. In particolare, alcuni geni umani correlati alla malattia contengono anche frameshift nei loro omologhi macachi. Per esempio, abbiamo trovato che tutti e tre i macachi avevano un codone di stop prematuro nel secondo esone del gene del recettore mu1 degli oppioidi (OPRM1), che codifica una proteina distribuita in tutta la neuraxis e il sistema nervoso periferico, e che è il bersaglio primario degli oppioidi13 (Sezione supplementare 6).

Abbiamo anche studiato le differenze genetiche negli ortologhi che sono specificamente importanti negli studi biomedici. La proteina 5α del tripartito-motivo citoplasmatico (codificata dal gene TRIM5), che può limitare la replicazione di una vasta gamma di retrovirus, è un biomarcatore chiave usato per selezionare i modelli animali di infezione da HIV14. Per esaminare la diversità genetica a livello di popolazione di TRIM5, abbiamo amplificato e sequenziato TRIM5 da 33 individui CE macaco non imparentati di origine vietnamita e 28 individui macaco CR (metodi online). Non abbiamo rilevato una chimera Trim5-ciclofilina A (TRIM-CypA2) precedentemente riportata15 in nessun individuo, suggerendo che questo genotipo è raro in queste popolazioni. Tuttavia, 19 polimorfismi non sinonimi e una microdelezione sono stati identificati nel gene TRIM5 rispetto al riferimento del macaco IR; quasi tutti questi polimorfismi hanno mostrato frequenze diverse tra le due popolazioni (Fig. 3 e Sezione supplementare 7). Abbiamo anche identificato una delezione di 6 bp nel gene TRIM5 nel macaco CE che risulta nella perdita di due aminoacidi (Thr339 e Phe340). Ricerche recenti hanno indicato che la delezione di questi residui potrebbe portare ad un aumento della patogenicità dell’HIV o del SIV16. Un’alta frequenza (97,5%) di questa mutazione è stata rilevata nella popolazione di macaco CE, indicando che questa delezione è diventata praticamente fissa nel macaco CE. Al contrario, nella popolazione di macachi CR, la frequenza di questa mutazione è circa il 50%, solo marginalmente più alta che nella popolazione di macachi IR (36%)17. La variazione di frequenza di questa delezione di 6 bp e di altri polimorfismi tra macachi di diversa origine geografica può essere responsabile delle differenze osservate nella resistenza all’HIV tra queste specie/sottospecie di macachi16. Abbiamo anche esaminato la variazione genetica in altri geni correlati alla malattia nella stessa popolazione di macachi CE o CR, osservando che le mutazioni spesso si verificano a frequenze diverse nelle due specie (Sezione supplementare 7).

Figura 3: Studio di popolazione del gene TRIM5 nelle popolazioni di macachi CR e CE.

(a) Schema della proteina codificata da TRIM5 nel macaco. I domini funzionali annotati sono contrassegnati con i nomi dei domini nelle caselle colorate. Le posizioni dei polimorfismi non sinonimi e la delezione di due amminoacidi (in rosso) sono contrassegnati.(b) Le frequenze di tutti i polimorfismi non sinonimi e la delezione di due amminoacidi nelle popolazioni di macaco CR e CE. La frequenza è contata per il genotipo che appare nel riferimento del macaco IR.

Per studiare gli ortologhi dei domini proteici drogabili umani nei macachi e per creare una risorsa per lo sfruttamento terapeutico del “genoma drogabile”, abbiamo esaminato gli ortologhi macachi per i domini di droga attualmente conosciuti. Quasi tutti gli ortologhi drogabili possono essere rilevati nelle tre specie/sottospecie di macachi, indicando che questi modelli animali sono probabilmente equivalenti dal punto di vista funzionale. Tuttavia, in pochissimi casi, l’ortologo trovato nel macaco è diverso dalla sua controparte umana. Per esempio, una aciltransferasi mitocondriale (GLYATL2), che trasferisce un gruppo acile alla glicina, è stata completamente persa in tutti e tre i macachi. Inoltre, abbiamo identificato 19 geni umani con domini drogabili, che sono diventati pseudogeni nei macachi (Sezione supplementare 7). Per esempio, il gene del recettore dell’ormone paratiroideo 1 (PTH1R), il bersaglio del farmaco anti-osteoporosi teriparatide (Forteo)18,19, contiene un codone di stop prematuro nei macachi. Uno dei bersagli del fattore di crescita dei cheratinociti umani ricombinante (Palifermin20), il recettore 3 del fattore di crescita dei fibroblasti, codificato da FGFR3, è stato anch’esso pseudogenizzato nei macachi a causa della presenza di un codone di stop prematuro.

Di ulteriore interesse biomedico sono le deviazioni patogene compensate. Queste rappresentano alleli missenso putativamente patologici umani in cui gli aminoacidi sostitutivi sono identici ai residui di aminoacidi wild-type in posizioni omologhe in altri organismi. Abbiamo identificato 931 deviazioni patogene compensate in quattro specie di primati strettamente correlati (scimpanzé e i tre macachi), di cui 220 variano tra i primati non umani, compresi 65 che variano tra le tre specie di macachi (Sezione supplementare 8 e Tabella supplementare 26). Per esempio, una mutazione (R40→H40) nel gene dell’ornitina transcarbamilasi (OTC) era evidente nelle due sottospecie di macaco rhesus ma non nel macaco CE. Sulla base degli esempi di differenze genetiche identificate di cui sopra, è chiaro che la potenziale esistenza di tali differenze interspecie dovrebbe essere considerata quando si selezionano i macachi per l’uso come modelli di malattia.

Il confronto dei profili di espressione genica (Sezione 9 supplementare) tra il macaco CE e il macaco IR ha rivelato che i loro ortologhi hanno mostrato profili di espressione conservati nello stesso tessuto. Tuttavia, abbiamo notato che il testicolo ha mostrato livelli di espressione che erano più divergenti tra gli ortologhi che avevano coefficienti di correlazione di Pearson più bassi (Sezione supplementare 9). L’osservazione che più geni mostrano livelli di espressione incoerenti nel testicolo rispetto agli altri tessuti potrebbe essere collegato al rapido tasso evolutivo manifestato da primati sperma-espresso geni21. I dati del trascrittoma sono serviti anche per identificare diversi nuovi geni nei macachi CE rispetto ai macachi rhesus.

In conclusione, il nostro sequenziamento e le analisi di due genomi di macaco hanno confermato che l’ibridazione introgressiva ha probabilmente giocato un ruolo importante nella formazione del genoma dell’attuale macaco CE di origine continentale. Così, il macaco CE potrebbe essere un modello utile per esplorare lo scambio di geni tra le specie di primati e il conseguente ruolo di questo processo nell’evoluzione e nella speciazione dei primati. I due nuovi genomi di macaco presentati qui evidenziano anche il grado di variazione esistente tra questi modelli animali di primati non umani ampiamente utilizzati. L’abbondante diversità genetica evidente nei singoli macachi di popolazioni geografiche distinte è di interesse diretto per la primatologia, la medicina preclinica, la genetica delle popolazioni e gli studi filogeografici.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.