Les macaques sont les plus répandus des primates non humains, comprenant plus de 20 espèces qui ont divergé les unes des autres jusqu’à 5-6 millions d’années2. Le genre Macaca est étroitement lié aux humains, partageant un dernier ancêtre commun il y a ∼25 millions d’années3. La relation étroite entre les humains et les macaques a rendu plusieurs espèces attrayantes comme modèles animaux pour différentes analyses biomédicales. Bien que la sous-espèce indienne du macaque rhésus (Macaca mulatta mulatta) ait été à l’origine le modèle de recherche de choix, l’interdiction d’exporter ce macaque a considérablement réduit la disponibilité de ces animaux, ce qui a conduit à une utilisation accrue d’autres espèces et/ou sous-espèces de macaques, en particulier le macaque rhésus (CR) chinois (Macaca mulatta lasiota) et le macaque cynomolgus ou mangeur de crabe (CE) (Macaca fascicularis).
Nous avons séquencé les génomes d’un macaque CR femelle et d’un macaque CE femelle en utilisant une stratégie shotgun du génome entier sur une plateforme de séquençage de nouvelle génération. Brièvement, l’analyse de la séquence du génome mitochondrial a vérifié l’origine prédite des deux individus (section supplémentaire 1). Nous avons ensuite construit 19 et 18 bibliothèques d’ADN génomique à extrémités paires multiples avec des tailles d’insertion progressivement croissantes pour le macaque CR et le macaque CE, respectivement. La taille totale des génomes assemblés du macaque CR et du macaque CE était, respectivement, de ∼2,84 Gb et 2,85 Gb, fournissant une couverture de 47 et 54 fois, respectivement, en moyenne (Tableau 1 et Section supplémentaire 1). Les échafaudages ont été assignés aux chromosomes en fonction de la synténie affichée avec les séquences du macaque rhésus indien (RI)4 et du génome humain. Environ 97 % des échafaudages du macaque CR et 92 % des échafaudages du macaque CE ont pu être placés sur des chromosomes. Nous avons également appliqué la technique RNA-seq pour établir le profil des transcrits dans divers tissus d’un macaque IR et de deux macaques CE (Méthodes en ligne). Une analyse intégrée combinant les données génomiques et transcriptomiques a ensuite été utilisée pour définir la structure des transcrits et vérifier le profil d’expression de chaque gène (Section supplémentaire 2).
La diversité génétique des macaques a été évaluée par comparaison du génome entier et alignement de lectures courtes en utilisant le génome du macaque IR comme référence. Au total, nous avons détecté >20 millions de différences mononucléotidiques et 740 827 événements indel dans les trois espèces ou sous-espèces de macaques (section supplémentaire 3), ce qui fournira une hétérogénéité génétique abondante à utiliser dans les futures applications et analyses biomédicales. Nous avons classé tous les sites variables mononucléotidiques en trois classes (variants partagés, fixes et uniques) en fonction de leur présence ou absence chez les trois individus (Fig. 1a). Les variants uniques représentaient >71,7% du total des variants, ce qui n’est pas surprenant étant donné que même au sein d’une population panmictique, 44% des allèles devraient être des singletons dans un échantillon de trois individus. Il est intéressant de noter qu’un grand nombre de différences génétiques étaient partagées entre au moins deux macaques. En utilisant uniquement les variations fixes et uniques, nous avons estimé que le taux de divergence le plus élevé, 0,40%, était entre le macaque CE et le macaque IR (Fig. 1b). Cependant, la divergence de séquence entre le macaque CE et le macaque CR (0,34%), bien que nominalement d’espèces différentes, était proche de celle observée entre les sous-espèces, le macaque CR et le macaque IR (0,31%).
Des recherches récentes basées sur des données de séquence limitées ont suggéré qu’une introgression ancienne aurait pu se produire entre les macaques CR et les macaques CE vivant dans une zone de distribution géographique qui se chevauche sur la péninsule indochinoise5,6,7. Les deux génomes séquencés nous ont permis de quantifier l’influence de cette introgression au niveau du génome entier. Plus précisément, nous avons cherché à savoir si un signal d’ADN compatible avec une hybridation inter-espèces était apparent dans les génomes du macaque CR et du macaque CE. Nous avons calculé le rapport de divergence entre le macaque CE et le macaque CR et l’avons comparé au rapport de divergence entre le macaque CR et le macaque IR pour des fenêtres de 50 kb à travers les génomes alignés (section supplémentaire 4). Pour ces calculs, nous avons ignoré les variations sur les sites CpG car ils sont connus pour évoluer particulièrement rapidement. Plus de 27% des fenêtres présentaient un rapport de divergence inférieur à zéro, ce qui suggère que les macaques CE et CR sont plus étroitement liés que les sous-espèces CR et IR dans ces régions (Section supplémentaire 4). En outre, >93% des fenêtres génomiques de 50 kb ont présenté un taux de divergence inférieur entre les macaques CE et CR par rapport aux macaques CE et IR. Par conséquent, les polymorphismes ancestraux non triés ne pouvaient pas expliquer entièrement la proportion élevée de régions incohérentes observées entre le macaque CE et le macaque CR. De plus, en combinant les données antérieures sur les polymorphismes mononucléotidiques (SNP) des populations de macaques IR et CR avec les données de nos propres macaques CR et CE séquencés8, nous avons remarqué que notre macaque CE était regroupé au sein de la population de macaques CR (section supplémentaire 4). Cela confirme l’existence d’un flux génétique important du génome du macaque CR vers celui du macaque CE. En examinant le degré d’asymétrie de la divergence entre le macaque CE et CR et entre le macaque CE et IR, nous avons estimé que ∼30% du génome du macaque CE est d’origine macaque CR (section supplémentaire 4).
Nous avons ensuite cherché à identifier les régions d’introgression putatives (PIR) dans le génome du macaque CE qui pourraient avoir été contribuées par le flux génétique. Nous avons utilisé des données simulées (sous un modèle neutre de non-migration) comme contrôle (Méthodes en ligne et Section supplémentaire 4), et nous avons identifié 8 942 PIRs couvrant 778 Mb avec un taux de divergence substantiellement plus bas que prévu entre le macaque CE et CR (Fig. 2a,b). Après avoir fusionné les PIRs qui se chevauchent, nous avons constaté que la plupart des PIRs (>98%) étaient plus courts que 500 kb. Étant donné que la distribution de la longueur des PIR est fonction du temps écoulé depuis que le flux génétique s’est produit9, la prévalence de PIR courts suggère que le flux génétique s’est produit sur une longue période d’évolution et qu’il est peu probable qu’il ait été simplement la conséquence d’un flux génétique très récent causé par l’homme. Nous avons également observé une différence marquée dans la variabilité entre les chromosomes X et autosomiques (section supplémentaire 4), ce qui pourrait être le résultat d’un flux génétique induit par les hommes. Un facteur contribuant probablement au flux génétique restreint des femelles de macaques CR vers les mâles de macaques CE est que les femelles de macaques CR présentent une saisonnalité ovarienne marquée et ne copulent que pendant l’ovulation, alors que les femelles de macaques CE ne présentent pas de saisonnalité reproductive distincte et restent sexuellement réceptives toute l’année10. En outre, étant donné que la dispersion est principalement dirigée par les mâles chez les macaques en raison de la philopatrie des femelles, cela pourrait également expliquer le flux génétique des mâles de macaques CR vers les femelles de macaques CE et l’absence de l’inverse. Ces populations peuvent donc être intéressantes pour étudier les aspects physiologiques et comportementaux de la reproduction entre différentes espèces.
Une forte sélection en faveur de nouveaux allèles avantageux entraîne un » balayage sélectif » qui réduit la diversité génétique par rapport aux régions non sélectionnées. Nous avons développé un algorithme pour identifier les régions de balayage putatives contenant une variation réduite entre les trois espèces/sous-espèces de macaques, et avons généré des données simulées sous l’hypothèse d’un modèle neutre pour évaluer sa signification statistique (Méthodes en ligne et section supplémentaire 5). Nous avons identifié 217 régions de balayage sélectif fort qui présentaient un niveau de variation réduit entre les macaques et qui s’écartaient considérablement de l’attente neutre (Fig. 2c, Section supplémentaire 5 et Tableau supplémentaire 17). Notamment, l’une des dix plus grandes régions de balayage sélectif, située sur le chromosome 14 du macaque, ne contient qu’un seul gène, le facteur de liaison SET 2 (SBF2) (Fig. 2c). Il est donc probable que ce gène, qui code pour une protéine membranaire périphérique de la famille des protéines-tyrosine phosphatases, ait été la cible d’une sélection positive au cours de l’évolution précoce des macaques. D’un intérêt biomédical potentiel, les défauts dans l’orthologue SBF2 humain provoquent une forme démyélinisante autosomique récessive de la maladie de Charcot-Marie-Tooth (CMT4B2).
Pour révéler les cibles potentielles de la sélection positive dans chaque branche de macaque, nous avons attribué 14 978 orthologues génétiques 1:1 pour l’homme, le chimpanzé et les trois espèces/sous-espèces de macaques par alignement du génome (section supplémentaire 6). La comparaison des trios d’orthologues de macaques a révélé qu’ils partagent un niveau extrêmement élevé de similarité de séquence nucléotidique dans les régions génétiques. Il convient de noter que 20,7 % des orthologues présentent un degré de similarité plus élevé entre le macaque CR et le macaque CE qu’entre le macaque CR et le macaque IR, ce qui peut impliquer l’influence de l’introgression. La comparaison des catégories de gènes basée sur l’ontologie génétique entre les lignées Macaca, Hominid et Murid a indiqué que les processus basés sur les microtubules et la voie de signalisation du récepteur de l’insuline ont évolué particulièrement rapidement dans la lignée Macaca (section supplémentaire 6). Les tests de rapport de vraisemblance basés sur un modèle de site de branche ont révélé 16 gènes sélectionnés positivement spécifiquement dans la branche IR des macaques, 7 dans la branche CR des macaques et 13 dans la branche CE des macaques (Section supplémentaire 6). Il est intriguant de constater que 31 des 36 gènes sélectionnés positivement chez les macaques codent pour des protéines de liaison qui jouent un rôle majeur dans la régulation de l’expression des gènes. Il est également intéressant de noter que deux gènes codant pour des protéines de dendrite, CLCN2 dans la lignée IR du macaque, et la protéine associée au cytosquelette (ARC) régulée par l’activité dans la lignée CE du macaque, ont subi une sélection positive. Ces deux gènes, ainsi que cinq autres gènes sélectionnés positivement, sont déjà connus pour être pertinents dans les maladies génétiques humaines, ce qui indique l’importance probable de leurs fonctions biologiques.
La disponibilité des séquences génomiques du macaque CR et du macaque CE nous a permis d’évaluer leur diversité génétique, ainsi que les différences génétiques entre les macaques et les humains, ce qui est important étant donné l’utilisation proéminente des macaques dans la recherche biomédicale. Les comparaisons entre les génomes de macaques ont révélé l’absence de 25 gènes humains à copie unique (Méthodes en ligne et Section supplémentaire 6), y compris un gène récepteur de chimiokine, IL32, qui peut jouer un rôle dans les réponses immunitaires innées et adaptatives, et qui est donc important à prendre en compte lorsque ces macaques sont utilisés dans des études sur les maladies infectieuses. En outre, un total de 170 gènes liés à la maladie ou à l’immunité chez l’une ou l’autre des espèces de macaques contiennent des mutations de décalage de cadre ou des codons stop prématurés, qui seraient prédits comme ayant pseudogénisé ces gènes (section supplémentaire 6). L’authenticité de ces mutations tronquantes est étayée à la fois par les données du transcriptome et les lectures de séquençage en profondeur, ainsi que par une validation indépendante par PCR. Trente-deux de ces gènes fonctionnent dans les voies de l’immunité et semblent avoir été perdus chez les macaques. Par exemple, un gène important de l’immunité innée, DEFA4, qui code pour l’un des peptides microbicides et cytotoxiques fabriqués par les neutrophiles11, a été pseudogénisé chez les trois macaques en raison de la perte de son premier exon. En outre, le gène du récepteur Toll-like 4 (TLR4) contenait une délétion de 1 pb, qui génère un codon stop prématuré dans son troisième exon chez les trois macaques (section supplémentaire 6). Il a été rapporté que le TLR4 a été soumis à une sélection positive chez les primates de l’Ancien Monde12. Notamment, certains gènes liés à des maladies humaines contiennent également des décalages de cadre dans leurs homologues macaques. Par exemple, nous avons découvert que les trois macaques avaient un codon stop prématuré dans le deuxième exon du gène du récepteur opioïde mu1 (OPRM1), qui code une protéine distribuée dans tout le neuraxe et le système nerveux périphérique, et qui est la cible principale des opioïdes13 (Section supplémentaire 6).
Nous avons également étudié les différences génétiques dans les orthologues qui sont spécifiquement importants dans les études biomédicales. La protéine tripartite-motif cytoplasmique 5α (codée par le gène TRIM5), qui peut restreindre la réplication d’un large éventail de rétrovirus, est un biomarqueur clé utilisé pour sélectionner des modèles animaux d’infection par le VIH14. Pour étudier la diversité génétique de TRIM5 à l’échelle de la population, nous avons amplifié par PCR et séquencé TRIM5 chez 33 macaques CE non apparentés d’origine vietnamienne et 28 macaques CR (Méthodes en ligne). Nous n’avons détecté chez aucun individu une chimère Trim5-cyclophiline A (TRIM-CypA2) précédemment rapportée15, ce qui suggère que ce génotype est rare dans ces populations. Cependant, 19 polymorphismes non synonymes et une microdélétion ont été identifiés dans le gène TRIM5 par rapport au macaque de référence IR ; presque tous ces polymorphismes présentaient des fréquences différentes entre les deux populations (Fig. 3 et Section supplémentaire 7). Nous avons également identifié une délétion de 6 pb dans le gène TRIM5 chez le macaque CE qui entraîne la perte de deux acides aminés (Thr339 et Phe340). Des recherches récentes ont indiqué que la délétion de ces résidus pourrait entraîner une augmentation de la pathogénicité du VIH ou du SIV16. Une fréquence élevée (97,5 %) de cette mutation a été détectée dans la population de macaques CE, ce qui indique que cette délétion est devenue pratiquement fixe chez le macaque CE. En revanche, dans la population de macaques CR, la fréquence de cette mutation est d’environ 50 %, à peine plus élevée que dans la population de macaques IR (36 %)17. La variation de la fréquence de cette délétion 6-bp et d’autres polymorphismes entre des macaques d’origines géographiques différentes pourrait bien être responsable des différences observées dans la résistance au VIH entre ces espèces/sous-espèces de macaques16. Nous avons également étudié la variation génétique d’autres gènes liés à la maladie dans la même population de macaques CE ou CR, en observant que les mutations se produisent souvent à des fréquences différentes dans les deux espèces (section supplémentaire 7).
Pour étudier les orthologues des domaines protéiques médicamenteux humains chez les macaques et créer une ressource pour l’exploitation thérapeutique du » génome médicamenteux « , nous avons criblé les orthologues macaques pour les domaines médicamenteux actuellement connus. Presque tous les orthologues médicamenteux peuvent être détectés dans les trois espèces/sous-espèces de macaques, ce qui indique que ces modèles animaux sont probablement équivalents sur le plan fonctionnel. Cependant, dans un très petit nombre de cas, l’orthologue trouvé chez le macaque est différent de son homologue humain. Par exemple, une acyltransférase mitochondriale (GLYATL2), qui transfère un groupe acyle à la glycine, a été complètement perdue chez les trois macaques. En outre, nous avons identifié 19 gènes humains avec des domaines médicamenteux, qui sont devenus des pseudogènes chez les macaques (section supplémentaire 7). Par exemple, le gène du récepteur de l’hormone parathyroïdienne 1 (PTH1R), la cible du médicament anti-ostéoporose teriparatide (Forteo)18,19, contient un codon stop prématuré chez les macaques. L’une des cibles du facteur de croissance des kératinocytes humain recombinant (Palifermin20), le récepteur 3 du facteur de croissance des fibroblastes, codé par FGFR3, a également été pseudogénisé chez les macaques en raison de la présence d’un codon stop prématuré.
Des déviations pathogènes compensées présentent un intérêt biomédical supplémentaire. Celles-ci représentent des allèles faux-sens putativement pathologiques humains où les acides aminés de substitution sont identiques aux résidus d’acides aminés de type sauvage à des positions orthologues dans d’autres organismes. Nous avons identifié 931 déviations pathogènes compensées chez quatre espèces de primates étroitement apparentées (le chimpanzé et les trois macaques), dont 220 variaient entre les primates non humains, y compris 65 qui variaient entre les trois espèces de macaques (section supplémentaire 8 et tableau supplémentaire 26). Par exemple, une mutation (R40→H40) dans le gène de l’ornithine transcarbamylase (OTC) était évidente chez les deux sous-espèces de macaques rhésus mais pas chez le macaque CE. Sur la base des exemples de différences génétiques identifiées présentés ci-dessus, il est clair que l’existence potentielle de telles différences inter-espèces doit être prise en compte lors de la sélection des macaques à utiliser comme modèles de maladie.
La comparaison des profils d’expression génique (section supplémentaire 9) entre le macaque CE et le macaque IR a révélé que leurs orthologues présentaient des profils d’expression conservés dans le même tissu. Cependant, nous avons noté que le testicule présentait des niveaux d’expression plus divergents entre les orthologues qui avaient des coefficients de corrélation de Pearson plus faibles (section supplémentaire 9). L’observation selon laquelle davantage de gènes présentent des niveaux d’expression incohérents dans le testicule par rapport aux autres tissus pourrait être liée au taux d’évolution rapide des gènes exprimés dans le sperme des primates21. Les données transcriptomiques ont également permis d’identifier plusieurs gènes nouveaux chez les macaques CE par rapport aux macaques rhésus.
En conclusion, notre séquençage et nos analyses de deux génomes de macaques ont confirmé que l’hybridation introgressive a probablement joué un rôle important dans la formation du génome du macaque CE d’origine continentale existant. Ainsi, le macaque CE pourrait être un modèle utile pour explorer l’échange de gènes entre les espèces de primates, et le rôle conséquent de ce processus dans l’évolution et la spéciation des primates. Les deux nouveaux génomes de macaques présentés ici soulignent également le degré de variation existant entre ces modèles animaux de primates non humains largement utilisés. L’abondante diversité génétique évidente chez les macaques individuels provenant de populations géographiques distinctes présente un intérêt direct pour la primatologie, la médecine préclinique, la génétique des populations et les études phylogéographiques.