Die Makaken sind die am weitesten verbreiteten nichtmenschlichen Primaten und umfassen mehr als 20 Arten, die sich vor bis zu 5-6 Millionen Jahren voneinander unterschieden haben2. Die Gattung der Makaken ist eng mit dem Menschen verwandt und hat einen letzten gemeinsamen Vorfahren vor ∼25 Millionen Jahren3. Die enge Verwandtschaft zwischen Menschen und Makaken hat mehrere Arten als Tiermodelle für verschiedene biomedizinische Analysen attraktiv gemacht. Obwohl die indische Unterart des Rhesusaffen (Macaca mulatta mulatta) ursprünglich das Forschungsmodell der Wahl war, hat ein Verbot der Ausfuhr dieses Makaken die Verfügbarkeit dieser Tiere stark eingeschränkt, was zu einer verstärkten Verwendung anderer Makakenarten und/oder -unterarten geführt hat, insbesondere des Chinesischen Rhesusmakaken (Macaca mulatta lasiota) und des Cynomolgus- oder Krabbenfressermakaken (Macaca fascicularis).
Wir sequenzierten die Genome eines weiblichen CR-Makaken und eines weiblichen CE-Makaken unter Verwendung einer Ganzgenom-Shotgun-Strategie auf einer Sequenzierungsplattform der nächsten Generation. Eine kurze Analyse der mitochondrialen Genomsequenz bestätigte die vorhergesagte Herkunft beider Individuen (ergänzender Abschnitt 1). Anschließend erstellten wir 19 bzw. 18 mehrfach gepaarte genomische DNA-Bibliotheken mit schrittweise ansteigender Insertgröße für den CR-Makaken und den CE-Makaken. Die Gesamtgröße der assemblierten CR-Makaken- und CE-Makaken-Genome betrug ∼2,84 Gb bzw. 2,85 Gb, was im Durchschnitt eine 47-fache bzw. 54-fache Abdeckung ergab (Tabelle 1 und ergänzender Abschnitt 1). Die Gerüste wurden den Chromosomen entsprechend der angezeigten Syntenie mit den Genomsequenzen des indischen Rhesusaffen4 und des Menschen zugewiesen. Etwa 97 % der CR-Makakengerüste und 92 % der CE-Makakengerüste konnten auf Chromosomen platziert werden. Wir haben auch RNA-seq angewandt, um Transkripte in verschiedenen Geweben von einem IR-Makaken und zwei CE-Makaken zu erfassen (Online-Methoden). Eine integrierte Analyse, die Genom- und Transkriptomdaten kombiniert, wurde dann verwendet, um die Transkriptstruktur zu definieren und das Ausdrucksprofil jedes Gens zu bestimmen (Ergänzungsabschnitt 2).
Die genetische Vielfalt der Makaken wurde durch einen Vergleich des gesamten Genoms und ein Short-Read-Alignment unter Verwendung des IR-Makaken-Genoms als Referenz bewertet. Insgesamt wurden >20 Millionen Einzelnukleotidunterschiede und 740.827 Indel-Ereignisse in den drei Makakenarten bzw. -unterarten festgestellt (ergänzender Abschnitt 3), die eine große genetische Heterogenität für künftige biomedizinische Anwendungen und Analysen liefern werden. Wir klassifizierten alle variablen Einzelnukleotidstellen in drei Klassen (gemeinsame, fixe und einzigartige Varianten) auf der Grundlage ihres Vorhandenseins oder Fehlens in den drei Individuen (Abb. 1a). Einzigartige Varianten machten >71,7 % der Gesamtvarianten aus, was nicht überrascht, wenn man bedenkt, dass selbst in einer panmiktischen Population 44 % der Allele in einer Stichprobe von drei Individuen Einzelelemente sein dürften. Es ist bemerkenswert, dass eine große Anzahl genetischer Unterschiede zwischen mindestens zwei Makaken geteilt wurde. Unter ausschließlicher Verwendung der festen und einmaligen Variationen schätzten wir, dass die höchste Divergenzrate, 0,40 %, zwischen dem CE-Makaken und dem IR-Makaken bestand (Abb. 1b). Die Sequenzdivergenz zwischen dem CE-Makaken und dem CR-Makaken (0,34 %), obwohl sie nominell verschiedene Arten sind, lag jedoch nahe an der zwischen den Unterarten, dem CR-Makaken und dem IR-Makaken (0,31 %) beobachteten.
Rezente Forschungen, die auf begrenzten Sequenzdaten basieren, haben nahegelegt, dass eine uralte Introgression von CR-Makaken zu CE-Makaken stattgefunden haben könnte, die in einer sich überschneidenden geografischen Verbreitungszone auf der indisch-chinesischen Halbinsel leben5,6,7. Die beiden sequenzierten Genome ermöglichten es uns, den Einfluss dieser Introgression auf der Ebene des gesamten Genoms zu quantifizieren. Insbesondere untersuchten wir, ob ein DNA-Signal, das auf eine Interspezies-Hybridisierung hindeutet, in den Genomen des CR-Makaken und des CE-Makaken erkennbar war. Wir berechneten das Divergenzverhältnis zwischen dem CE-Makaken und dem CR-Makaken und verglichen es mit dem Divergenzverhältnis zwischen dem CR-Makaken und dem IR-Makaken für 50-kb-Fenster über die ausgerichteten Genome (ergänzender Abschnitt 4). Bei diesen Berechnungen haben wir Variationen an CpG-Stellen ignoriert, da diese sich bekanntermaßen besonders schnell entwickeln. Über 27 % der Fenster wiesen ein Divergenzverhältnis von weniger als Null auf, was darauf hindeutet, dass CE- und CR-Makaken in diesen Regionen enger miteinander verwandt sind als die Unterarten CR- und IR-Makaken (ergänzender Abschnitt 4). Darüber hinaus zeigten >93% der 50-kb-Genomfenster eine geringere Divergenzrate zwischen den CE- und CR-Makaken im Vergleich zu den CE- und IR-Makaken. Daher konnten unsortierte Polymorphismen aus der Vorzeit den hohen Anteil an inkonsistenten Regionen zwischen CE- und CR-Makaken nicht vollständig erklären. Durch die Kombination früherer SNP-Daten (Single Nucleotide Polymorphism) von IR- und CR-Makakenpopulationen mit Daten unserer eigenen sequenzierten CR- und CE-Makakenindividuen8 stellten wir außerdem fest, dass unser CE-Makakenindividuum innerhalb der CR-Makakenpopulation geclustert wurde (ergänzender Abschnitt 4). Dies unterstützt das Auftreten eines starken Genflusses vom CR- zum CE-Makakengenom. Indem wir den Grad der Asymmetrie in der Divergenz zwischen dem CE- und CR-Makaken und zwischen dem CE- und IR-Makaken untersuchten, schätzten wir, dass ∼30% des CE-Makaken-Genoms CR-Makaken-Ursprung sind (ergänzender Abschnitt 4).
Als nächstes versuchten wir, mutmaßliche Introgressionsregionen (PIRs) im CE-Makaken-Genom zu identifizieren, die durch Genfluss beigetragen haben könnten. Wir verwendeten simulierte Daten (unter einem neutralen Nicht-Migrationsmodell) als Kontrolle (Online-Methoden und ergänzender Abschnitt 4) und identifizierten 8.942 PIRs, die sich über 778 Mb erstrecken und eine wesentlich geringere Divergenzrate als erwartet zwischen dem CE- und CR-Makaken aufweisen (Abb. 2a,b). Nachdem wir überlappende PIRs zusammengeführt hatten, stellten wir fest, dass die meisten PIRs (>98%) kürzer als 500 kb waren. Da die Längenverteilung von PIRs eine Funktion der Zeit seit dem Auftreten des Genflusses ist9, deutet die Prävalenz kurzer PIRs darauf hin, dass der Genfluss über einen längeren Zeitraum der Evolution stattgefunden hat und wahrscheinlich nicht nur eine Folge des jüngsten, vom Menschen vermittelten Genflusses war. Wir beobachteten auch einen deutlichen Unterschied in der Variabilität zwischen dem X-Chromosom und dem autosomalen Chromosom (ergänzender Abschnitt 4), der auf einen von Männern verursachten Genfluss zurückzuführen sein könnte. Ein wahrscheinlicher Faktor, der zum eingeschränkten Genfluss von CR-Makakenweibchen zu CE-Makakenmännchen beiträgt, ist, dass CR-Makakenweibchen eine ausgeprägte ovarielle Saisonalität aufweisen und nur während des Eisprungs kopulieren, während CE-Makakenweibchen keine ausgeprägte reproduktive Saisonalität aufweisen und das ganze Jahr über sexuell empfänglich sind10. Da die Ausbreitung bei Makaken aufgrund der weiblichen Philopatrie in erster Linie durch die Männchen erfolgt, könnte dies auch der Grund für den Genfluss von CR-Makaken-Männchen zu CE-Makaken-Weibchen sein und nicht umgekehrt. Diese Populationen könnten daher für die Untersuchung physiologischer und verhaltensbezogener Aspekte der Fortpflanzung zwischen verschiedenen Arten von Interesse sein.
Starke Selektion zugunsten neuer vorteilhafter Allele führt zu einem „selektiven Sweep“, der die genetische Vielfalt im Vergleich zu nicht selektierten Regionen verringert. Wir haben einen Algorithmus entwickelt, um mutmaßliche Sweep-Regionen zu identifizieren, die eine reduzierte Variation zwischen den drei Makakenarten/Unterarten enthalten, und haben simulierte Daten unter der Annahme eines neutralen Modells erzeugt, um die statistische Signifikanz zu bewerten (Online-Methoden und ergänzender Abschnitt 5). Wir identifizierten 217 starke selektive Sweep-Regionen, die ein reduziertes Variationsniveau zwischen Makaken aufwiesen und die erheblich von der neutralen Erwartung abwichen (Abb. 2c, ergänzender Abschnitt 5 und ergänzende Tabelle 17). Bemerkenswert ist, dass eine der zehn größten selektiven Sweep-Regionen, die sich auf Makaken-Chromosom 14 befindet, nur ein einziges Gen enthält, den SET-Bindungsfaktor 2 (SBF2) (Abb. 2c). Daher ist es wahrscheinlich, dass dieses Gen, das für ein peripheres Membranprotein aus der Familie der Protein-Tyrosin-Phosphatasen kodiert, während der frühen Evolution der Makaken das Ziel einer positiven Selektion war. Von potenziellem biomedizinischem Interesse sind Defekte im menschlichen SBF2-Ortholog, die eine autosomal rezessive demyelinisierende Form der Charcot-Marie-Tooth-Krankheit (CMT4B2) verursachen.
Um die potenziellen Ziele der positiven Selektion in jedem Makaken-Zweig aufzudecken, haben wir 14.978 1:1-Genorthologe für den Menschen, den Schimpansen und die drei Makaken-Arten/Unterarten durch Genom-Alignment zugewiesen (ergänzender Abschnitt 6). Der Vergleich der Makaken-Orthologentrios ergab, dass sie eine extrem hohe Nukleotidsequenzähnlichkeit innerhalb der Genregionen aufweisen. Bemerkenswert ist, dass 20,7 % der Orthologe zwischen CR-Makaken und CE-Makaken einen höheren Grad an Ähnlichkeit aufweisen als zwischen CR-Makaken und IR-Makaken, was auf einen Einfluss der Introgression hindeuten könnte. Ein auf der Gen-Ontologie basierender Vergleich der Genkategorien zwischen den Macaca-, Hominiden- und Muridenlinien zeigte, dass sich Mikrotubuli-basierte Prozesse und der Insulinrezeptor-Signalweg besonders schnell in der Macaca-Linie entwickelt haben (ergänzender Abschnitt 6). Likelihood-Ratio-Tests auf der Grundlage eines Zweigstellenmodells ergaben 16 positiv ausgewählte Gene speziell im IR-Makaken-Zweig, 7 im CR-Makaken-Zweig und 13 im CE-Makaken-Zweig (Ergänzungsabschnitt 6). Es ist interessant, dass 31 der 36 positiv ausgewählten Gene bei Makaken für Bindungsproteine kodieren, die eine wichtige Rolle bei der Regulierung der Genexpression spielen. Bemerkenswert ist auch, dass zwei Gene, die für Dendritenproteine kodieren, CLCN2 im IR-Makakenstamm und das aktivitätsregulierte, zytoskelettassoziierte Protein (ARC) im CE-Makakenstamm, eine positive Selektion erfuhren. Diese beiden Gene sowie fünf weitere positiv selektierte Gene sind bereits als relevant für genetische Erkrankungen des Menschen bekannt, was auf die wahrscheinliche Bedeutung ihrer biologischen Funktionen hinweist.
Die Verfügbarkeit der Genomsequenzen von CR- und CE-Makaken ermöglichte es uns, ihre genetische Vielfalt sowie die genetischen Unterschiede zwischen Makaken und Menschen zu bewerten, was angesichts der prominenten Verwendung von Makaken in der biomedizinischen Forschung wichtig ist. Vergleiche zwischen den Makakengenomen ergaben das Fehlen von 25 menschlichen Single-Copy-Genen (Online-Methoden und ergänzender Abschnitt 6), darunter ein Chemokinrezeptor-Gen, IL32, das sowohl bei angeborenen als auch bei adaptiven Immunreaktionen eine Rolle spielen kann und daher bei der Verwendung dieser Makaken in Studien zu Infektionskrankheiten zu berücksichtigen ist. Darüber hinaus enthalten insgesamt 170 Gene, die bei der einen oder anderen Makakenart mit Krankheiten oder der Immunität in Zusammenhang stehen, entweder Frameshift-Mutationen oder vorzeitige Stoppcodons, was auf eine Pseudogenisierung dieser Gene schließen lässt (ergänzender Abschnitt 6). Die Echtheit dieser verkürzenden Mutationen wird sowohl durch Transkriptomdaten und hochauflösende Sequenzierungsdaten als auch durch unabhängige PCR-Validierung bestätigt. Zweiunddreißig dieser Gene haben eine Funktion in Immunitätswegen und scheinen bei Makaken verloren gegangen zu sein. So ist beispielsweise ein wichtiges Gen der angeborenen Immunität, DEFA4, das für eines der mikrobiziden und zytotoxischen Peptide der Neutrophilen11 kodiert, in allen drei Makaken aufgrund des Verlusts seines ersten Exons pseudogenisiert worden. Darüber hinaus enthielt das Gen für den Toll-like-Rezeptor 4 (TLR4) in allen drei Makaken eine 1-bp-Deletion, die ein vorzeitiges Stoppcodon in seinem dritten Exon erzeugt (ergänzender Abschnitt 6). Es wurde berichtet, dass TLR4 bei den Primaten der Alten Welt einer positiven Selektion unterlag12. Bemerkenswert ist, dass einige mit menschlichen Krankheiten in Zusammenhang stehende Gene auch Frameshifts in ihren Makaken-Homologen enthalten. So stellten wir beispielsweise fest, dass alle drei Makaken ein vorzeitiges Stoppcodon im zweiten Exon des Gens für den Opioidrezeptor mu1 (OPRM1) aufwiesen, der für ein Protein kodiert, das in der Neuraxis und im peripheren Nervensystem verteilt ist und das primäre Ziel von Opioiden ist13 (ergänzender Abschnitt 6).
Wir untersuchten auch genetische Unterschiede in Orthologen, die für biomedizinische Studien von besonderer Bedeutung sind. Das zytoplasmatische Tripartit-Motiv-Protein 5α (kodiert durch das TRIM5-Gen), das die Replikation eines breiten Spektrums von Retroviren einschränken kann, ist ein wichtiger Biomarker, der zur Auswahl von Tiermodellen für HIV-Infektionen verwendet wird14. Um die populationsweite genetische Vielfalt von TRIM5 zu erfassen, haben wir TRIM5 von 33 nicht verwandten CE-Makaken vietnamesischer Herkunft und 28 CR-Makaken PCR-amplifiziert und sequenziert (Online-Methoden). Wir konnten bei keinem einzigen Individuum eine zuvor gemeldete15 Trim5-Cyclophilin-A-Chimäre (TRIM-CypA2) nachweisen, was darauf hindeutet, dass dieser Genotyp in diesen Populationen selten ist. Allerdings wurden 19 nicht-synonyme Polymorphismen und eine Mikrodeletion im TRIM5-Gen im Vergleich zur IR-Makaken-Referenz identifiziert; fast alle diese Polymorphismen wiesen unterschiedliche Häufigkeiten zwischen den beiden Populationen auf (Abb. 3 und ergänzender Abschnitt 7). Wir identifizierten auch eine 6-bp-Deletion im TRIM5-Gen beim CE-Makaken, die zum Verlust von zwei Aminosäuren (Thr339 und Phe340) führt. Jüngste Untersuchungen haben gezeigt, dass die Deletion dieser Reste zu einer erhöhten HIV- oder SIV-Pathogenität führen könnte16. Eine hohe Häufigkeit (97,5 %) dieser Mutation wurde in der CE-Makakenpopulation festgestellt, was darauf hindeutet, dass diese Deletion beim CE-Makaken praktisch fixiert ist. Im Gegensatz dazu liegt die Häufigkeit dieser Mutation in der CR-Makakenpopulation bei etwa 50 % und damit nur geringfügig höher als in der IR-Makakenpopulation (36 %)17. Die Unterschiede in der Häufigkeit dieser 6-bp-Deletion und anderer Polymorphismen zwischen Makaken unterschiedlicher geografischer Herkunft könnten durchaus für die beobachteten Unterschiede in der HIV-Resistenz zwischen diesen Makakenarten/-unterarten verantwortlich sein16. Wir untersuchten auch die genetische Variation in anderen krankheitsrelevanten Genen in derselben Population von CE- oder CR-Makaken und stellten fest, dass Mutationen in den beiden Arten oft mit unterschiedlicher Häufigkeit auftreten (ergänzender Abschnitt 7).
Um die Orthologe menschlicher arzneimittelwirksamer Proteindomänen in Makaken zu untersuchen und eine Ressource für die therapeutische Nutzung des „arzneimittelwirksamen Genoms“ zu schaffen, haben wir die Makaken-Orthologe auf derzeit bekannte Arzneimittel-Domänen untersucht. Fast alle arzneimittelwirksamen Orthologe können in den drei Makakenarten/Unterarten nachgewiesen werden, was darauf hindeutet, dass diese Tiermodelle wahrscheinlich funktionell gleichwertig sind. In einigen wenigen Fällen unterscheidet sich jedoch das Ortholog im Makaken von seinem menschlichen Gegenstück. So ist beispielsweise eine mitochondriale Acyltransferase (GLYATL2), die eine Acylgruppe auf Glycin überträgt, in allen drei Makaken vollständig verloren gegangen. Darüber hinaus haben wir 19 menschliche Gene mit arzneimittelwirksamen Domänen identifiziert, die bei Makaken zu Pseudogenen geworden sind (ergänzender Abschnitt 7). So enthält beispielsweise das Gen für den Parathormon-1-Rezeptor (PTH1R), das Ziel des Antiosteoporose-Medikaments Teriparatid (Forteo)18,19, bei Makaken ein vorzeitiges Stoppcodon. Eines der Ziele des rekombinanten humanen Keratinozyten-Wachstumsfaktors (Palifermin20), der Fibroblasten-Wachstumsfaktor-Rezeptor 3, der von FGFR3 kodiert wird, wurde bei Makaken aufgrund eines vorzeitigen Stoppcodons ebenfalls pseudogenisiert.
Von zusätzlichem biomedizinischem Interesse sind kompensierte pathogene Abweichungen. Dabei handelt es sich um vermeintlich pathologische Missense-Allele beim Menschen, bei denen die substituierten Aminosäuren mit den Wildtyp-Aminosäureresten an orthologen Positionen in anderen Organismen identisch sind. Wir identifizierten 931 kompensierte pathogene Abweichungen bei vier eng verwandten Primatenarten (Schimpanse und die drei Makaken), von denen 220 zwischen den nichtmenschlichen Primaten variierten, einschließlich 65, die zwischen den drei Makakenarten variierten (ergänzender Abschnitt 8 und ergänzende Tabelle 26). So war beispielsweise eine Mutation (R40→H40) im Ornithin-Transcarbamylase (OTC)-Gen bei den beiden Rhesusaffen-Unterarten zu finden, nicht aber beim CE-Makaken. Ausgehend von den oben genannten Beispielen identifizierter genetischer Unterschiede ist klar, dass das mögliche Vorhandensein solcher Unterschiede zwischen den Spezies bei der Auswahl von Makaken für die Verwendung als Krankheitsmodelle in Betracht gezogen werden sollte.
Der Vergleich der Genexpressionsprofile (ergänzender Abschnitt 9) zwischen dem CE-Makaken und dem IR-Makaken ergab, dass ihre Orthologe konservierte Expressionsprofile in denselben Geweben aufweisen. Wir stellten jedoch fest, dass die Hoden Expressionsniveaus aufwiesen, die zwischen denjenigen Orthologen, die niedrigere Pearson-Korrelationskoeffizienten aufwiesen, stärker voneinander abwichen (Ergänzungsabschnitt 9). Die Beobachtung, dass in den Hoden mehr Gene inkonsistente Expressionsniveaus aufweisen als in den anderen Geweben, könnte mit der raschen Evolutionsrate zusammenhängen, die bei spermienexprimierenden Genen von Primaten zu beobachten ist21. Transkriptomdaten dienten auch zur Identifizierung mehrerer neuer Gene bei CE-Makaken im Vergleich zu Rhesusmakaken.
Zusammenfassend lässt sich sagen, dass unsere Sequenzierung und Analyse zweier Makakengenome bestätigte, dass introgressive Hybridisierung wahrscheinlich eine wichtige Rolle bei der Entstehung des Genoms des vom Festland stammenden CE-Makaken spielte. Somit könnte der CE-Makak ein nützliches Modell für die Erforschung des Genaustauschs zwischen Primatenarten und der sich daraus ergebenden Rolle dieses Prozesses in der Evolution und Artbildung der Primaten sein. Die beiden neuen Makakengenome, die hier vorgestellt werden, verdeutlichen auch das Ausmaß der Variation zwischen diesen weit verbreiteten Tiermodellen für nichtmenschliche Primaten. Die große genetische Vielfalt, die sich bei einzelnen Makaken aus unterschiedlichen geografischen Populationen zeigt, ist von unmittelbarem Interesse für die Primatologie, die präklinische Medizin, die Populationsgenetik und phylogeografische Studien.