Los macacos son los más extendidos de los primates no humanos, y comprenden más de 20 especies que divergieron entre sí hace hasta 5-6 millones de años2. El género Macaca está estrechamente relacionado con los humanos, compartiendo un último ancestro común hace ∼25 millones de años3. La estrecha relación entre humanos y macacos ha hecho que varias especies resulten atractivas como modelos animales para diferentes análisis biomédicos. Aunque la subespecie india del macaco rhesus (Macaca mulatta mulatta) era originalmente el modelo de investigación de elección, la prohibición de la exportación de este macaco ha reducido en gran medida la disponibilidad de estos animales, lo que ha llevado a un mayor uso de otras especies y/o subespecies de macacos, en particular el macaco rhesus chino (CR) (Macaca mulatta lasiota) y el macaco cynomolgus o cangrejero (CE) (Macaca fascicularis).
Secuenciamos los genomas de una hembra de macaco CR y de una hembra de macaco CE utilizando una estrategia de escopeta de genoma completo en una plataforma de secuenciación de nueva generación. Brevemente, el análisis de la secuencia del genoma mitocondrial verificó el origen predicho de ambos individuos (Sección Suplementaria 1). A continuación, se construyeron 19 y 18 bibliotecas de ADN genómico de extremos múltiples emparejados con tamaños de inserción gradualmente crecientes para el macaco CR y el macaco CE, respectivamente. El tamaño total de los genomas ensamblados del macaco CR y del macaco CE fue, respectivamente, ∼2,84 Gb y 2,85 Gb, proporcionando una cobertura de 47 y 54 veces, respectivamente, en promedio (Tabla 1 y Sección Suplementaria 1). Los andamios se asignaron a los cromosomas según la sintenia mostrada con las secuencias del macaco indio (IR)4 y del genoma humano. Aproximadamente el 97% de los andamios del macaco CR y el 92% de los andamios del macaco CE pudieron ser colocados en los cromosomas. También aplicamos RNA-seq para perfilar los transcritos en varios tejidos de un macaco IR y dos macacos CE (Métodos en línea). A continuación, se utilizó un análisis integrado que combinaba los datos genómicos y del transcriptoma para definir la estructura de los transcritos y determinar el perfil de expresión de cada gen (Sección Suplementaria 2).
La diversidad genética del macaco se evaluó mediante la comparación del genoma completo y la alineación de lecturas cortas utilizando el genoma del macaco IR como referencia. En total, detectamos >20 millones de diferencias de un solo nucleótido y 740.827 eventos indel en las tres especies o subespecies de macacos (Sección Suplementaria 3), lo que proporcionará abundante heterogeneidad genética para su uso en futuras aplicaciones y análisis biomédicos. Clasificamos todos los sitios variables de un solo nucleótido en tres clases (variantes compartidas, fijas y únicas) basándonos en su presencia o ausencia en los tres individuos (Fig. 1a). Las variantes únicas comprendían >71,7% del total de variantes, lo cual no es sorprendente dado que incluso en una población panmítica, se espera que el 44% de los alelos sean únicos en una muestra de tres individuos. Cabe destacar que un gran número de diferencias genéticas fueron compartidas entre al menos dos macacos. Utilizando sólo las variaciones fijas y únicas, estimamos que la tasa de divergencia más alta, el 0,40%, fue entre el macaco CE y el macaco IR (Fig. 1b). Sin embargo, la divergencia de secuencias entre el macaco CE y el macaco CR (0,34%), aunque nominalmente son especies diferentes, fue cercana a la observada entre las subespecies, el macaco CR y el macaco IR (0,31%).
Investigaciones recientes basadas en datos limitados de secuencias han sugerido que puede haberse producido una antigua introgresión de los macacos CR a los macacos CE que viven en una zona de distribución geográfica superpuesta en la península indochina5,6,7. Los dos genomas secuenciados nos permitieron cuantificar la influencia de esta introgresión a nivel de todo el genoma. Específicamente, exploramos si una señal de ADN consistente con la hibridación interespecífica era aparente dentro de los genomas del macaco CR y del macaco CE. Calculamos el ratio de divergencia entre el macaco CE y el macaco CR y lo comparamos con el ratio de divergencia entre el macaco CR y el macaco IR para ventanas de 50 kb a través de los genomas alineados (Sección Suplementaria 4). Para estos cálculos, ignoramos las variaciones en los sitios CpG porque se sabe que evolucionan con especial rapidez. Más del 27% de las ventanas mostraron un ratio de divergencia menor que cero, lo que sugiere que los macacos CE y CR están más estrechamente relacionados que las subespecies CR e IR en estas regiones (Sección Suplementaria 4). Además, el >93% de las ventanas genómicas de 50 kb mostraron una menor tasa de divergencia entre los macacos CE y CR en comparación con los macacos CE e IR. Por lo tanto, los polimorfismos ancestrales no clasificados podrían explicar por completo la alta proporción de regiones inconsistentes observadas entre el macaco CE y el macaco CR. Además, al combinar los datos anteriores de polimorfismo de un solo nucleótido (SNP) de las poblaciones de macacos IR y CR con los datos de nuestros propios individuos secuenciados de macacos CR y CE8, observamos que nuestro individuo de macaco CE se agrupaba dentro de la población de macacos CR (Sección Suplementaria 4). Esto apoya la ocurrencia de un fuerte flujo genético desde el genoma del macaco CR al CE. Al examinar el grado de asimetría en la divergencia entre el macaco CE y el macaco CR y entre el macaco CE y el macaco IR, estimamos que ∼30% del genoma del macaco CE es de origen del macaco CR (Sección Suplementaria 4).
A continuación, tratamos de identificar las regiones de introgresión putativas (PIR) en el genoma del macaco CE que podrían haber sido aportadas por el flujo génico. Utilizamos datos simulados (bajo un modelo neutro de no migración) como control (Métodos en línea y Sección Suplementaria 4), e identificamos 8.942 PIRs que abarcaban 778 Mb con una tasa de divergencia sustancialmente inferior a la esperada entre el macaco CE y el macaco CR (Fig. 2a,b). Después de fusionar los PIRs superpuestos, encontramos que la mayoría de los PIRs (>98%) eran más cortos que 500 kb. Dado que la distribución de la longitud de los PIRs es una función del tiempo transcurrido desde que se produjo el flujo genético9, la prevalencia de PIRs cortos sugiere que el flujo genético se produjo durante un largo período de tiempo evolutivo y es poco probable que haya sido simplemente una consecuencia del flujo genético muy reciente mediado por el hombre. También observamos una marcada diferencia en la variabilidad entre los cromosomas X y los autosómicos (Sección Suplementaria 4), que podría haber sido el resultado de un flujo génico impulsado por los hombres. Un factor que probablemente contribuya al flujo genético restringido de las hembras de macaco CR a los machos de macaco CE es que las hembras de macaco CR muestran una marcada estacionalidad ovárica y sólo copulan durante la ovulación, mientras que las hembras de macaco CE no muestran una estacionalidad reproductiva distintiva y permanecen sexualmente receptivas durante todo el año10. Además, dado que la dispersión está impulsada principalmente por los machos en los macacos debido a la filopatría de las hembras, esto también podría explicar el flujo de genes de los machos de macaco CR a las hembras de macaco CE y la ausencia de lo contrario. Por lo tanto, estas poblaciones pueden ser de interés para estudiar los aspectos fisiológicos y conductuales de la reproducción entre diferentes especies.
Una fuerte selección a favor de nuevos alelos ventajosos da lugar a un «barrido selectivo» que reduce la diversidad genética en relación con las regiones no seleccionadas. Desarrollamos un algoritmo para identificar las regiones de barrido putativo que contienen una variación reducida entre las tres especies/subespecies de macacos, y generamos datos simulados bajo el supuesto de un modelo neutro para evaluar su importancia estadística (Métodos en línea y Sección suplementaria 5). Identificamos 217 regiones de barrido selectivo fuerte que mostraban un nivel reducido de variación entre macacos y que se desviaban sustancialmente de la expectativa neutral (Fig. 2c, Sección Suplementaria 5 y Tabla Suplementaria 17). En particular, una de las diez mayores regiones de barrido selectivo, situada en el cromosoma 14 de los macacos, contiene sólo un gen, el factor de unión SET 2 (SBF2) (Fig. 2c). Por lo tanto, es probable que este gen, que codifica una proteína de membrana periférica de la familia de la proteína-tirosina-fosfatasa, fuera el objetivo de la selección positiva durante la evolución temprana de los macacos. De potencial interés biomédico, los defectos en el ortólogo humano de SBF2 causan una forma desmielinizante autosómica recesiva de la enfermedad de Charcot-Marie-Tooth (CMT4B2).
Para revelar los objetivos potenciales de la selección positiva en cada rama de los macacos, asignamos 14.978 ortólogos génicos 1:1 para humanos, chimpancés y las tres especies/subespecies de macacos mediante la alineación del genoma (Sección Suplementaria 6). La comparación de los tríos de ortólogos de macacos reveló que comparten un nivel extremadamente alto de similitud de secuencia de nucleótidos dentro de las regiones de los genes. Cabe destacar que el 20,7% de los ortólogos presentan un mayor grado de similitud entre el macaco CR y el macaco CE que entre el macaco CR y el macaco IR, lo que puede implicar la influencia de la introgresión. La comparación de categorías genéticas basada en la ontología entre los linajes de macacos, homínidos y múridos indicó que los procesos basados en los microtúbulos y la vía de señalización del receptor de la insulina evolucionaron con especial rapidez en el linaje de los macacos (sección suplementaria 6). Las pruebas de relación de verosimilitud basadas en un modelo de sitio de ramificación revelaron 16 genes seleccionados positivamente específicamente en la rama de macacos IR, 7 en la rama de macacos CR y 13 en la rama de macacos CE (Sección Suplementaria 6). Resulta intrigante que 31 de los 36 genes positivamente seleccionados en los macacos codifiquen proteínas de unión que desempeñan papeles importantes en la regulación de la expresión génica. También cabe destacar que dos genes que codifican proteínas dendríticas, el CLCN2 en el linaje de macacos IR, y la proteína regulada por la actividad y asociada al citoesqueleto (ARC) en el linaje de macacos CE, experimentaron una selección positiva. Estos dos genes, junto con otros cinco genes seleccionados positivamente, ya se sabe que son relevantes para las enfermedades genéticas humanas, lo que indica la probable importancia de sus funciones biológicas.
La disponibilidad de las secuencias del genoma del macaco CR y del macaco CE nos permitió evaluar su diversidad genética, así como las diferencias genéticas entre los macacos y los humanos, lo que es importante dado el uso prominente de los macacos en la investigación biomédica. Las comparaciones entre los genomas de los macacos revelaron la ausencia de 25 genes humanos de una sola copia (Métodos en línea y Sección Suplementaria 6), incluido un gen receptor de quimioquinas, el IL32, que puede desempeñar un papel en las respuestas inmunitarias tanto innatas como adaptativas, y que por lo tanto es importante tener en cuenta cuando estos macacos se utilizan en estudios de enfermedades infecciosas. Además, un total de 170 genes relacionados con la enfermedad o la inmunidad en una u otra especie de macacos contienen mutaciones de cambio de marco o codones de parada prematuros, lo que se predice que han pseudogenizado estos genes (Sección Suplementaria 6). La autenticidad de estas mutaciones de truncamiento está respaldada tanto por los datos del transcriptoma como por las lecturas de secuenciación de alta profundidad, así como por la validación independiente de la PCR. Treinta y dos de estos genes funcionan en vías de inmunidad y parecen haberse perdido en los macacos. Por ejemplo, un importante gen de la inmunidad innata, el DEFA4, que codifica uno de los péptidos microbicidas y citotóxicos producidos por los neutrófilos11 , se ha pseudogenizado en los tres macacos debido a la pérdida de su primer exón. Además, el gen del receptor tipo Toll 4 (TLR4) contenía una deleción de 1 pb, que genera un codón de parada prematuro en su tercer exón en los tres macacos (Sección Suplementaria 6). Se ha informado de que TLR4 ha estado bajo selección positiva en los primates del Viejo Mundo12. En particular, algunos genes relacionados con enfermedades humanas también contienen cambios de marco en sus homólogos de macacos. Por ejemplo, descubrimos que los tres macacos tenían un codón de parada prematuro en el segundo exón del gen del receptor opioide mu1 (OPRM1), que codifica una proteína distribuida por todo el neuraxis y el sistema nervioso periférico, y que es el objetivo principal de los opioides13 (Sección suplementaria 6).
También investigamos las diferencias genéticas en los ortólogos que son específicamente importantes en los estudios biomédicos. La proteína tripartita-motiva citoplasmática 5α (codificada por el gen TRIM5), que puede restringir la replicación de una amplia gama de retrovirus, es un biomarcador clave utilizado para seleccionar modelos animales de infección por VIH14. Para estudiar la diversidad genética de TRIM5 en toda la población, amplificamos por PCR y secuenciamos TRIM5 a partir de 33 individuos de macacos CE no emparentados de origen vietnamita y 28 individuos de macacos CR (Métodos en línea). No detectamos una quimera de Trim5-ciclofilina A (TRIM-CypA2) en ningún individuo, lo que sugiere que este genotipo es raro en estas poblaciones. Sin embargo, se identificaron 19 polimorfismos no sinónimos y una microdeleción en el gen TRIM5 en relación con la referencia del macaco IR; casi todos estos polimorfismos mostraron frecuencias diferentes entre las dos poblaciones (Fig. 3 y Sección Suplementaria 7). También identificamos una deleción de 6 pb en el gen TRIM5 en el macaco CE que resulta en la pérdida de dos aminoácidos (Thr339 y Phe340). Investigaciones recientes han indicado que la deleción de estos residuos podría conducir a un aumento de la patogenicidad del VIH o del VIS16. Se detectó una alta frecuencia (97,5%) de esta mutación en la población de macacos CE, lo que indica que esta deleción se ha fijado prácticamente en el macaco CE. Por el contrario, en la población de macacos CR, la frecuencia de esta mutación es de aproximadamente el 50%, sólo ligeramente superior a la de la población de macacos IR (36%)17. La variación en la frecuencia de esta deleción de 6 pb y de otros polimorfismos entre macacos de diferentes orígenes geográficos bien puede ser responsable de las diferencias observadas en la resistencia al VIH entre estas especies/subespecies de macacos16. También hemos estudiado la variación genética en otros genes relacionados con la enfermedad en la misma población de macacos CE o CR, observando que las mutaciones se producen a menudo con frecuencias diferentes en las dos especies (sección suplementaria 7).
Para estudiar los ortólogos de los dominios proteicos drogables humanos en macacos y crear un recurso para la explotación terapéutica del «genoma drogable», examinamos los ortólogos de macacos para los dominios drogables actualmente conocidos. Casi todos los ortólogos farmacológicos pueden detectarse en las tres especies o subespecies de macacos, lo que indica que es probable que estos modelos animales sean funcionalmente equivalentes. Sin embargo, en muy pocos casos, el ortólogo encontrado en el macaco es diferente de su homólogo humano. Por ejemplo, una aciltransferasa mitocondrial (GLYATL2), que transfiere un grupo acilo a la glicina, se ha perdido completamente en los tres macacos. Además, identificamos 19 genes humanos con dominios farmacológicos, que se han convertido en pseudogenes en los macacos (Sección Suplementaria 7). Por ejemplo, el gen del receptor de la hormona paratiroidea 1 (PTH1R), la diana del fármaco contra la osteoporosis teriparatida (Forteo)18,19, contiene un codón de parada prematuro en los macacos. Una de las dianas del factor de crecimiento de queratinocitos humano recombinante (Palifermin20), el receptor 3 del factor de crecimiento de fibroblastos, codificado por el FGFR3, también se ha pseudogenizado en los macacos debido a la presencia de un codón de parada prematuro.
De interés biomédico adicional son las desviaciones patogénicas compensadas. Éstas representan alelos de sentido erróneo supuestamente patológicos en los que los aminoácidos que los sustituyen son idénticos a los residuos de aminoácidos de tipo salvaje en posiciones ortólogas en otros organismos. Identificamos 931 desviaciones patogénicas compensadas en cuatro especies de primates estrechamente relacionadas (el chimpancé y los tres macacos), de las cuales 220 variaban entre los primates no humanos, incluyendo 65 que variaban entre las tres especies de macacos (Sección Suplementaria 8 y Tabla Suplementaria 26). Por ejemplo, una mutación (R40→H40) en el gen de la ornitina transcarbamilasa (OTC) era evidente en las dos subespecies de macacos rhesus pero no en el macaco CE. Sobre la base de los ejemplos de diferencias genéticas identificadas que se han descrito anteriormente, está claro que la existencia potencial de tales diferencias entre especies debería tenerse en cuenta a la hora de seleccionar macacos para su uso como modelos de enfermedad.
La comparación de los perfiles de expresión génica (Sección suplementaria 9) entre el macaco CE y el macaco IR reveló que sus ortólogos mostraban perfiles de expresión conservados en el mismo tejido. Sin embargo, observamos que en los testículos los niveles de expresión eran más divergentes entre los ortólogos que presentaban coeficientes de correlación de Pearson más bajos (Sección suplementaria 9). La observación de que hay más genes que muestran niveles de expresión inconsistentes en los testículos en comparación con los otros tejidos podría estar relacionada con el rápido ritmo evolutivo que manifiestan los genes expresados en el esperma de los primates21. Los datos del transcriptoma también sirvieron para identificar varios genes nuevos en los macacos CE con respecto a los macacos rhesus.
En conclusión, nuestra secuenciación y análisis de los genomas de dos macacos confirmó que la hibridación introgresiva probablemente desempeñó un papel importante en la formación del genoma del actual macaco CE de origen continental. Así pues, el macaco CE podría ser un modelo útil para explorar el intercambio de genes entre especies de primates, y el consiguiente papel de este proceso en la evolución y la especiación de los primates. Los dos nuevos genomas de macaco presentados aquí también ponen de manifiesto el grado de variación existente entre estos modelos animales de primates no humanos ampliamente utilizados. La abundante diversidad genética evidente en macacos individuales de distintas poblaciones geográficas es de interés directo para la primatología, la medicina preclínica, la genética de poblaciones y los estudios filogeográficos.