Makkerne er de mest udbredte af de ikke-menneskelige primater og består af mere end 20 arter, som adskilte sig fra hinanden for op til 5-6 millioner år siden2. Macaca-slægten er nært beslægtet med mennesker, idet de deler en sidste fælles forfader ∼25 millioner år siden3. Det tætte slægtskab mellem mennesker og makakaber har gjort flere arter attraktive som dyremodeller til forskellige biomedicinske analyser. Selv om den indiske underart af rhesusmakaken (Macaca mulatta mulatta) oprindeligt var den foretrukne forskningsmodel, har et forbud mod eksport af denne makak i høj grad reduceret tilgængeligheden af disse dyr, hvilket har ført til øget brug af andre makak-arter og/eller -underarter, navnlig den kinesiske rhesusmakak (CR) (Macaca mulatta lasiota) og den cynomolgus- eller krabbeædende makak (CE) (Macaca fascicularis).
Vi sekventerede genomerne af en hun CR-makak og en hun CE-makak ved hjælp af en helgenom shotgun-strategi på en next-generation sekventeringsplatform. Kort fortalt verificerede en mitokondriel genom-sekvensanalyse den forudsagte oprindelse for begge individer (Supplerende afsnit 1). Derefter konstruerede vi 19 og 18 multiple paird-end genomiske DNA-biblioteker med gradvist stigende insertstørrelser for henholdsvis CR-makaken og CE-makaken. Den samlede størrelse af de samlede CR-makak- og CE-makak-genomer var henholdsvis ∼2,84 Gb og 2,85 Gb, hvilket giver en gennemsnitlig dækning på henholdsvis 47 gange og 54 gange (tabel 1 og supplerende afsnit 1). Stilladserne blev tildelt kromosomerne i henhold til den syntese, der blev vist med den indiske rhesusmakak4 (IR) og den menneskelige genomsekvens. Ca. 97 % af CR-makakernes stilladser og 92 % af CE-makakernes stilladser kunne placeres på kromosomer. Vi anvendte også RNA-seq til at profilere transkripter i forskellige væv fra en IR-makak og to CE-makaker (Online Metoder). En integreret analyse, der kombinerer genom- og transkriptomdata, blev derefter anvendt til at definere transkriptstrukturen og fastslå ekspressionsprofilen for hvert enkelt gen (Supplerende afsnit 2).
Mackakkernes genetiske diversitet blev evalueret ved sammenligning af hele genomet og kortlæsning af alignment med IR-makakkens genom som reference. I alt påviste vi >20 millioner enkelt-nucleotidforskelle og 740 827 indel-hændelser i de tre makak-arter eller -underarter (Supplerende afsnit 3), hvilket vil give rigelig genetisk heterogenitet til brug i fremtidige biomedicinske anvendelser og analyser. Vi klassificerede alle de enkelt-nucleotid variable steder i tre klasser (delte, faste og unikke varianter) baseret på deres tilstedeværelse eller fravær i de tre individer (Fig. 1a). Unikke varianter omfattede >71.7% af de samlede varianter, hvilket ikke er overraskende, da selv inden for en panmictisk population forventes 44% af allelerne at være singletons i en prøve af tre individer. Det er bemærkelsesværdigt, at et stort antal genetiske forskelle blev delt mellem mindst to makaker. Ved kun at bruge de faste og unikke variationer anslog vi, at den højeste divergensrate, 0,40 %, var mellem CE-makaken og IR-makaken (Fig. 1b). Sekvensdivergensen mellem CE-makaken og CR-makaken (0,34 %) var imidlertid, selv om de nominelt set var forskellige arter, tæt på den, der blev observeret mellem underarterne, CR-makaken og IR-makaken (0,31 %).
Nyere forskning baseret på begrænsede sekvensdata har antydet, at der kan være sket en gammel introgression fra CR-makaker til CE-makaker, der lever i et overlappende geografisk udbredelsesområde på den indisk-kinesiske halvø5,6,7. De to sekventerede genomer gjorde det muligt for os at kvantificere indflydelsen af denne introgression på helgenomniveau. Specifikt undersøgte vi, om et DNA-signal, der var i overensstemmelse med hybridisering mellem arter, var tydeligt i CR-makakernes og CE-makakernes genomer. Vi beregnede divergensforholdet mellem CE-makaken og CR-makaken og sammenlignede det med divergensforholdet mellem CR-makaken og IR-makaken for 50-kb-vinduer på tværs af de tilpassede genomer (Supplerende afsnit 4). Ved disse beregninger ignorerede vi variationer på CpG-steder, fordi de vides at udvikle sig særlig hurtigt. Over 27 % af vinduerne udviste et divergensforhold på mindre end nul, hvilket tyder på, at CE- og CR-makaker er tættere beslægtede end underarterne CR- og IR-makak i disse regioner (supplerende afsnit 4). Desuden udviste >93 % af 50 kb genomiske vinduer en lavere divergensrate mellem CE- og CR-makaker i sammenligning med CE- og IR-makaker. Derfor kunne usorterede forfædres polymorfismer ikke helt forklare den høje andel af inkonsistente regioner, der blev observeret mellem CE-makaken og CR-makaken. Ved at kombinere tidligere single nucleotide polymorphism (SNP)-data fra IR- og CR-makakpopulationer med data fra vores egne sekventerede CR- og CE-makakindivider8 bemærkede vi desuden, at vores CE-makakindivid klyngedes inden for CR-makakpopulationen (Supplerende afsnit 4). Dette understøtter forekomsten af en stærk genstrøm fra CR- til CE-makak-genomet. Ved at screene graden af asymmetri i divergens mellem CE- og CR-makaken og mellem CE- og IR-makaken vurderede vi, at ∼30% af CE-makak-genomet er af CR-makak oprindelse (Supplerende afsnit 4).
Vi forsøgte dernæst at identificere formodede introgressionsregioner (PIR’er) i CE-makak-genomet, som kunne være blevet bidraget af genstrøm. Vi brugte simulerede data (under en neutral nulmigrationsmodel) som en kontrol (Online Metoder og Supplerende afsnit 4) og identificerede 8,942 PIR’er, der dækker 778 Mb med en væsentlig lavere end forventet divergensrate mellem CE- og CR-makaken (Fig. 2a,b). Efter sammenlægning af overlappende PIR’er fandt vi, at de fleste PIR’er (>98%) var kortere end 500 kb. Da længdefordelingen af PIR’er er en funktion af den tid, der er gået siden genstrømmen fandt sted9 , tyder forekomsten af korte PIR’er på, at genstrømmen fandt sted over en længere evolutionær periode og sandsynligvis ikke blot var en konsekvens af en meget nylig menneskesmedieret genstrøm. Vi observerede også en markant forskel i variabilitet mellem X- og autosomale kromosomer (Supplerende afsnit 4), som kunne være et resultat af mandligt drevet genflow. En sandsynlig faktor, der bidrager til den begrænsede genstrøm fra CR-makakhunner til CE-makakhanner, er, at CR-makakhunner udviser en markant sæsonafhængighed i ovarietiden og kun copulerer under ægløsning, mens CE-makakhunner ikke udviser en tydelig reproduktiv sæsonafhængighed og forbliver seksuelt modtagelige hele året rundt10. Da spredningen hos makaker desuden primært er mandligt drevet på grund af hunnernes filopatri, kan dette også forklare genstrømmen fra CR-makakhanner til CE-makakhunner og fraværet af det omvendte. Disse populationer kan derfor være af interesse for at studere fysiologiske og adfærdsmæssige aspekter af reproduktion mellem forskellige arter.
Stærk selektion til fordel for nye fordelagtige alleler resulterer i et “selektivt sweep”, som reducerer den genetiske diversitet i forhold til ikke-selekterede regioner. Vi udviklede en algoritme til at identificere formodede sweep-regioner, der indeholder reduceret variation mellem de tre makak-arter/underarter, og genererede simulerede data under antagelse af en neutral model for at evaluere dens statistiske betydning (Online Metoder og Supplerende afsnit 5). Vi identificerede 217 stærkt selektive sweep-regioner, der udviste et reduceret variationsniveau mellem makaker, og som afveg væsentligt fra den neutrale forventning (Fig. 2c, Supplerende afsnit 5 og Supplerende tabel 17). Det er bemærkelsesværdigt, at en af de ti største selektive sweep-regioner, der ligger på makakkens kromosom 14, kun indeholder ét gen, SET-bindingsfaktor 2 (SBF2) (Fig. 2c). Det er således sandsynligt, at dette gen, som koder for et perifert membranprotein fra protein-tyrosinphosphatasefamilien, var målet for positiv selektion i makakkernes tidlige evolution. Af potentiel biomedicinsk interesse er defekter i den menneskelige SBF2-ortolog forårsager en autosomal recessiv demyeliniserende form af Charcot-Marie-Tooth-sygdom (CMT4B2).
For at afsløre de potentielle mål for positiv udvælgelse i hver makakgren tildelte vi 14 978 1:1 genortologer for mennesker, chimpanser og de tre makakarter/underarter ved genomalignering (Supplerende afsnit 6). Sammenligning af makakernes ortologtrioer afslørede, at de deler et ekstremt højt niveau af nukleotidsekvenslighed inden for genregioner. Det er bemærkelsesværdigt, at 20,7 % af ortologerne udviser en højere grad af lighed mellem CR-makak og CE-makak end mellem CR-makak og IR-makak, hvilket kan betyde, at der er tale om introgression. Gene Ontology-baseret sammenligning af genkategorier mellem Macaca-, Hominid- og Murid-linjerne viste, at mikrotubuli-baserede processer og insulinreceptor-signalvejen udviklede sig særligt hurtigt i Macaca-linjen (Supplerende afsnit 6). Likelihood ratio-tests baseret på en grenstedsmodel afslørede 16 positivt udvalgte gener specifikt i IR-makakakgrenen, 7 i CR-makakgrenen og 13 i CE-makakgrenen (Supplerende afsnit 6). Det er spændende, at 31 af de 36 positivt udvalgte gener hos makaker koder for bindende proteiner, der spiller en vigtig rolle i reguleringen af genekspression. Det er også værd at bemærke, at to gener, der koder for dendritproteiner, CLCN2 i IR-makakernes afstamning og aktivitetsreguleret, cytoskelet-associeret protein (ARC) i CE-makakernes afstamning, oplevede positiv udvælgelse. Disse to gener er sammen med fem andre positivt udvalgte gener allerede kendt for at være relevante for genetiske sygdomme hos mennesker, hvilket indikerer den sandsynlige betydning af deres biologiske funktioner.
Den omstændighed, at vi havde adgang til CR-makakens og CE-makakens genomsekvenser, gjorde det muligt for os at evaluere deres genetiske diversitet samt de genetiske forskelle mellem makaker og mennesker, hvilket er vigtigt i betragtning af den fremtrædende brug af makaker i biomedicinsk forskning. Sammenligninger mellem makakernes genomer afslørede fraværet af 25 menneskelige enkeltkopierede gener (online metoder og supplerende afsnit 6), herunder et kemokinreceptorgen, IL32, som kan spille en rolle i både medfødte og adaptive immunreaktioner, og som derfor er vigtigt at tage hensyn til, når disse makaker anvendes i undersøgelser af infektionssygdomme. Desuden indeholder i alt 170 gener, der er relateret til sygdom eller immunitet hos en eller anden makakartoffelart, enten frameshift-mutationer eller for tidlige stopkodoner, som kan forudsiges at have pseudogeniseret disse gener (Supplerende afsnit 6). Autenticiteten af disse truncating-mutationer understøttes både af transkriptomdata og high-depth sequencing-reads samt uafhængig PCR-validering. 32 af disse gener fungerer i immunitetsveje og synes at være gået tabt hos makaker. For eksempel er et vigtigt medfødt immunitetsgen, DEFA4, som koder for et af de mikrobicide og cytotoksiske peptider, der fremstilles af neutrofiler11 , blevet pseudogeniseret i alle tre makaker på grund af tab af dets første ekson. Desuden indeholdt Toll-like receptor 4 (TLR4)-genet en 1-bp-deletion, som genererer et for tidligt stopkodon i dets tredje exon i alle tre makaker (supplerende afsnit 6). TLR4 er blevet rapporteret at have været under positiv selektion hos primater fra den gamle verden12. Det er bemærkelsesværdigt, at nogle humane sygdomsrelaterede gener også indeholder frameshifts i deres makakehomologer. For eksempel fandt vi, at alle tre makaker havde et for tidligt stopkodon i det andet exon af genet opioidreceptor mu1 (OPRM1), som koder for et protein, der er fordelt i hele neuraksen og det perifere nervesystem, og som er det primære mål for opioider13 (Supplerende afsnit 6).
Vi undersøgte også genetiske forskelle i ortologer, som er specifikt vigtige i biomedicinske undersøgelser. Det cytoplasmatiske tripartite-motivprotein 5α (kodet af TRIM5-genet), som kan begrænse replikationen af en bred vifte af retrovirus, er en vigtig biomarkør, der anvendes til at udvælge dyremodeller af HIV-infektion14. For at undersøge den genetiske mangfoldighed af TRIM5 i hele populationen PCR-amplificerede og sekventerede vi TRIM5 fra 33 ikke-sammenhængende CE-makakindivider af vietnamesisk oprindelse og 28 CR-makakindivider (Online Methods). Vi påviste ikke en tidligere rapporteret15 Trim5-cyclophilin A-chimærer (TRIM-CypA2) hos noget individ, hvilket tyder på, at denne genotype er sjælden i disse populationer. Der blev imidlertid identificeret 19 nonsynonyme polymorfismer og en mikrodeletion i TRIM5-genet i forhold til IR-makak-referencen; næsten alle disse polymorfismer viste forskellige frekvenser mellem de to populationer (fig. 3 og supplerende afsnit 7). Vi identificerede også en 6-bp-deletion i TRIM5-genet i CE-makaken, som resulterer i tab af to aminosyrer (Thr339 og Phe340). Nyere forskning har vist, at deletion af disse rester kan føre til øget HIV- eller SIV-patogenicitet16. Der blev påvist en høj frekvens (97,5 %) af denne mutation i CE-makakpopulationen, hvilket tyder på, at denne deletion stort set er blevet fastlåst i CE-makaken. I CR-makakpopulationen er hyppigheden af denne mutation derimod ca. 50 %, hvilket kun er marginalt højere end i IR-makakpopulationen (36 %)17. Variationen i hyppigheden af denne 6-bp-deletion og af andre polymorfismer mellem makakker af forskellig geografisk oprindelse kan meget vel være ansvarlig for de observerede forskelle i HIV-resistens mellem disse makak-arter/underarter16. Vi undersøgte også den genetiske variation i andre sygdomsrelaterede gener i den samme population af CE- eller CR-makaker og konstaterede, at mutationer ofte forekommer med forskellig hyppighed i de to arter (Supplerende afsnit 7).
For at undersøge ortologerne af menneskelige lægemiddelbare proteindomæner i makaker og for at skabe en ressource til terapeutisk udnyttelse af det “lægemiddelbare genom” screenede vi makakernes ortologer for aktuelt kendte lægemiddeldomæner. Næsten alle de lægemiddelbare ortologer kan påvises i de tre makak-arter/underarter, hvilket indikerer, at disse dyremodeller sandsynligvis er funktionelt ækvivalente. I meget få tilfælde er den ortolog, der findes i makaken, imidlertid forskellig fra dens menneskelige modstykke. F.eks. er en mitokondriel acyltransferase (GLYATL2), som overfører en acylgruppe til glycin, helt forsvundet i alle tre makakkerarter. Desuden identificerede vi 19 humane gener med lægemiddeldomæner, som er blevet pseudogener hos makaker (Supplerende afsnit 7). F.eks. indeholder genet for parathyreoideahormon 1-receptoren (PTH1R), som er målet for teriparatid (Forteo)18,19, der er et middel mod osteoporose, et for tidligt stopkodon i makaker. Et af målene for rekombinant human keratinocytvækstfaktor (Palifermin20), fibroblastvækstfaktorreceptor 3, der er kodet af FGFR3, er også blevet pseudogeniseret i makaker på grund af tilstedeværelsen af et for tidligt stopkodon.
Af yderligere biomedicinsk interesse er kompenserede patogene afvigelser. Disse repræsenterer menneskelige formodentlig patologiske missense-alleler, hvor de substituerende aminosyrer er identiske med wild-type aminosyreresterne på ortolog positioner i andre organismer. Vi identificerede 931 kompenserede patogene afvigelser i fire nært beslægtede primatarter (chimpanse og de tre makakkerarter), hvoraf 220 varierede mellem de ikke-menneskelige primater, herunder 65, der varierede mellem de tre makakarter (Supplerende afsnit 8 og Supplerende tabel 26). For eksempel var en mutation (R40→H40) i ornitin transcarbamylase (OTC)-genet (OTC) tydelig hos de to underarter af rhesusmakaker, men ikke hos CE-makaken. På baggrund af de eksempler på identificerede genetiske forskelle, der er skitseret ovenfor, er det klart, at den potentielle eksistens af sådanne forskelle mellem arterne bør overvejes, når man udvælger makaker til brug som sygdomsmodeller.
Sammenligning af genekspressionsprofiler (supplerende afsnit 9) mellem CE-makaken og IR-makaken viste, at deres ortologer udviste bevarede ekspressionsprofiler i det samme væv. Vi bemærkede imidlertid, at testiklerne udviste ekspressionsniveauer, der var mere divergerende mellem de ortologer, der havde lavere Pearson-korrelationskoefficienter (Supplerende afsnit 9). Observationen af, at flere gener udviser inkonsistente ekspressionsniveauer i testiklerne sammenlignet med de andre væv, kan være relateret til den hurtige udviklingshastighed, der manifesteres af primaters sædudtrykte gener21. Transkriptomdata tjente også til at identificere flere nye gener i CE-makaker i forhold til rhesusmakaker.
Sammenfattende bekræftede vores sekventering og analyser af to makak-genomer, at introgressiv hybridisering sandsynligvis spillede en vigtig rolle i dannelsen af genomet for den eksisterende CE-makak med oprindelse på fastlandet. CE-makaken kunne således være en nyttig model til at udforske genudveksling mellem primatarter og den deraf følgende rolle af denne proces i primaters evolution og artsdannelse. De to nye makakgenomer, der præsenteres her, fremhæver også den grad af variation, der findes mellem disse meget anvendte ikke-menneskelige primatdyrmodeller. Den store genetiske diversitet, der er tydelig i individuelle makaker fra forskellige geografiske populationer, er af direkte interesse for primatologi, præklinisk medicin, populationsgenetik og fylogeografiske undersøgelser.