Ensuring metagenomic data integrity
Microbioma

Iluminar lo desconocido

Consiga una descripción general del flujo de trabajo completo
Eche un vistazo al flujo de trabajo completo para investigación de microbioma.

Garantizar la integridad de datos de metagenómica

Los enfoques de metagenómica utilizan procesos y flujos de trabajo similares a los de los estudios convencionales (por ejemplo, PCR y qPCR). En ambos casos, el primer paso es obtener, aislar y purificar una muestra de ácidos nucleicos: ADN para estudios genómicos y ARN para investigaciones transcriptómicas. Después, esta muestra se amplifica (y, en los casos de las técnicas de secuenciación de próxima generación, se secuencia), con el producto final leído y medido con instrumental especializado. Por último, el software se utiliza para procesar, compilar y analizar los datos resultantes.

Al diseñar un flujo de trabajo de metagenómica, los investigadores deben tener en cuenta que el producto posterior a la amplificación sea una representación lo más exacta posible de la muestra original.
 

Lo que distingue a la metagenómica de los enfoques convencionales es la escala. Al diseñar y ejecutar un flujo de trabajo de metagenómica, los investigadores deben tener en cuenta no solo cómo optimizar el rendimiento de los ácidos nucleicos antes y después de la amplificación, sino también que el producto posterior a la amplificación sea una representación lo más exacta posible de la muestra original. Esto pone la magnitud y la proporción de la expresión genética en juego en miles de microrganismos en una muestra, cada uno con perfiles genéticos únicos, que pueden estar presentes en una muestra de metagenómica. Por lo tanto, los estudios metagenómicos han aumentado la dificultad en comparación con los estudios de microbios en organismos simples convencionales.


¿Qué es el sesgo y cómo se introduce?

Por desgracia, el sesgo —la perturbación sistémica de los valores de datos medidos a partir de los valores verdaderos de la muestra original— está presente en algún grado en todos los procesos experimentales, y la metagenómica no es excepción. Desde la adquisición de la muestra a la secuenciación y la agrupación de lecturas, puede introducirse sesgo en cualquier etapa del flujo de trabajo típico de metagenómica (1). Para empezar, si una muestra es realmente representativa de la comunidad mayor de la que forma parte depende de la ubicación y la frecuencia del muestreo. Por ejemplo, al estudiar el microbioma del intestino, una muestra fecal generará una microbiota diferente que una muestra obtenida de la mucosa intestinal. Además, la forma en que las muestras se hayan almacenado y transportado al laboratorio puede hacer que surja sesgo en la composición de la muestra.

Desde la adquisición de la muestra a la secuenciación y la agrupación de lecturas, puede introducirse sesgo en cualquier etapa del flujo de trabajo típico de metagenómica.
 

La extracción de ácidos nucleicos para estudios de metagenómica suele requerir primero que se les libere de las paredes celulares. Las membranas y las paredes celulares se rompen mediante medios químicos, enzimáticos o mecánicos. Sin embargo, los microbios difieren en la facilidad con la que se lisan, que da como resultado diferencias dramáticas en las proporciones de rendimiento de ácidos nucleicos. Las técnicas de extracción cambiantes pueden dar como resultado hasta una diferencia de 10 veces en la proporción medida de un taxón determinado de la misma muestra (2). Como tal, es importante para los investigadores comprender —y compensar— los sesgos inherentes introducidos por su protocolo de extracción y/o los reactivos escogidos (3).


Fuentes de sesgo en secuenciación indiscriminada

De manera similar, las técnicas de secuenciación individual también tienen sus propios sesgos. La estructura del cebador, el protocolo de amplificación, el tamaño genómico e incluso si la muestra de ácidos nucleicos es monocatenaria o bicatenaria, se han identificado como fuentes de sesgo (3–5). Por ejemplo, mientras que la secuenciación indiscriminada crea fragmentos al azar para la generación de lecturas posterior, la aleatoriedad no se iguala automáticamente a la uniformidad, lo que resulta potencialmente en la amplificación preferente de algunas regiones genómicas o transcriptómicas por encima de otras. De igual forma, la secuenciación de 16S se basa en el ARN ribosomal 16S (ARNr) como marcador filogenético para determinar la composición del microbioma (3).


Fuentes de sesgo en secuenciación de ARNr 16S

La secuenciación de ARNr 16S tiene como diana las regiones que rodean las regiones hipervariables del gen de ARNr 16S bacteriano y se ha usado ampliamente. El análisis del gen de ARNr 16S ha sido una constante del análisis bacteriano basado en secuencias durante décadas. (7) El análisis de la región de ITS (espaciador transcrito interno) permite elaborar perfiles de genomas fúngicos (8).


La conciencia conduce a las medidas de corrección

El sesgo es acumulativo. Una distorsión introducida durante la preparación de la muestra se amplificará durante la secuenciación y se destacará durante el análisis. Por lo tanto, es crítico para los científicos comprender las fuentes potenciales de sesgo y desarrollar una serie exhaustiva de controles en un esfuerzo para compensarlo. Los controles positivos y negativos pueden usarse para identificar la variabilidad entre análisis experimentales con el mismo protocolo y la misma muestra, mientras que las bases de datos el proyecto Microbiome Quality Control (control de calidad del microbioma) ayudan a demostrar cómo los cambios en el protocolo se traducen en cambios en el resultado final. Por último, los investigadores necesitan ser conscientes de que los esfuerzos para detectar determinados organismos de interés (por ejemplo, un patógeno) puede dar como resultado que se enmascaren muchos otros, con lo que se crea un retrato con sesgo de la comunidad microbiana (1). Aunque puede que sea imposible eliminar el sesgo, comprenderlo y mitigarlo será esencial si la metagenómica va a convertirse en una herramienta de diagnóstico clínico (1, 6).

Referencias:
  1. McLaren, M. R. et al. (2019) Consistent and correctable bias in metagenomic sequencing measurements. BioRxiv.
  2. Costea, P.I. et al. (2017) Towards standards for human fecal sample processing in metagenomic studies. Nat. Biotechnol. 35(11), 1069–1076.
  3. Brooks, J. P. et al. (2015)The truth about metagenomics: quantifying and counteracting bias in 16S rRNA studies. BMC Microbiol. 15, 66.
  4. Brinkman, N. E., et al. (2018) Reducing inherent biases introduced during DNA viral metagenome analyses of municipal wastewater. PLoS One 13(4), e0195350.
  5. Beszteri, B. et al. (2010) Average genome size: a potential source of bias in comparative metagenomics. ISME J. 4(8), 1075–1077.
  6. Amrane, S. and Lagier, J. -C. (2018) Metagenomic and clinical microbiology. Hum. Microbiome J. 9,1–6.
  7. Johnson, J.S., Spakowicz, D.J., Hong, B. et al. (2019) Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis. Nat. Commun. 10, 5029. 
  8. Peay K.G. Kennedy P.G., Bruns, T.D. (2008) Fungal Community Ecology: A Hybrid Beast with a Molecular Master. Bioscience. 58:9. 799-810