Ensuring metagenomic data integrity
Microbiome

Élucider l’inconnu

Description d’une méthode complète
Découvrez la méthode complète pour la recherche sur le microbiome.

Assurer l’intégrité des données métagénomiques

Les approches métagénomiques font appel à des méthodes et processus équivalents aux études conventionnelles (p. ex. PCR et qPCR). Dans les deux cas, la première étape consiste à obtenir, isoler et purifier un échantillon d’acide nucléique, c’est-à-dire de l’ADN pour les études génomiques et de l’ARN pour les études transcriptomiques. Cet échantillon est ensuite amplifié (et séquencé dans le cas des techniques de séquençage nouvelle génération) afin de lire et mesurer le produit obtenu à l’aide d’instruments spécialisés. Enfin, un logiciel permet de traiter, compiler et analyser les données brutes générées.

Lors du développement d’une méthode de métagénomique, les chercheurs doivent s’assurer que le produit obtenu après amplification est une représentation aussi exacte que possible de l’échantillon d’origine.
 

Ce qui distingue la métagénomique des approches conventionnelles, c’est l’échelle. Lors du développement et de l’exécution d’une méthode de métagénomique, les chercheurs doivent non seulement déterminer comment optimiser les rendements en acides nucléiques avant et après amplification, mais aussi s’assurer que le produit obtenu après amplification est une représentation aussi exacte que possible de l’échantillon d’origine. Cela met en jeu l’ampleur et la proportion de l’expression génique pour les milliers d’organismes, tous dotés d’un profil génétique unique, qui sont susceptibles d’être présents dans un échantillon métagénomique. Les études de métagénomique sont donc d’une difficulté accrue par rapport aux études conventionnelles de micro-organismes individuels.


Qu’est-ce que le biais et comment est-il introduit ?

Malheureusement, le biais, c’est-à-dire la distorsion systémique des valeurs mesurées par rapport aux valeurs réelles de l’échantillon d’origine, est présent dans une certaine mesure dans tous les processus expérimentaux, et la métagénomique ne fait pas exception. De l’acquisition au séquençage de l’échantillon et à l’assemblage des lectures, des biais peuvent être introduits à n’importe quelle étape d’une méthode de métagénomique typique (1). Tout d’abord, le fait qu’un échantillon est vraiment représentatif de la communauté d’origine dépend de l’emplacement et de la fréquence de l’échantillonnage. Par exemple, lors de l’étude du microbiome intestinal, un échantillon fécal présente un microbiote différent de celui obtenu à partir de la muqueuse intestinale. De plus, la composition des échantillons peut être biaisée par la façon dont les échantillons ont été stockés et transportés au laboratoire.

De l’acquisition au séquençage de l’échantillon et à l’assemblage des lectures, des biais peuvent être introduits à n’importe quelle étape d’une méthode de métagénomique typique.
 

L’extraction des acides nucléiques pour les études métagénomiques nécessite généralement de les libérer d’abord de leurs compartiments cellulaires. Les parois et membranes cellulaires sont détruites à l’aide de processus chimiques, enzymatiques ou mécaniques. Néanmoins, puisque cette lyse ne s’effectue pas avec la même facilité pour tous les microbes, les rendements en acides nucléiques présentent des différences considérables. Les modifications dans les techniques d’extraction peuvent multiplier ou diviser par 10 la proportion mesurée d’un taxon donné dans le même échantillon (2). Il est donc important que les chercheurs comprennent – et atténuent – les biais inhérents introduits par leur protocole d’extraction et/ou les réactifs choisis (3).


Sources de biais dans le séquençage shotgun

De même, les techniques de séquençage individuel possèdent aussi leurs propres biais. La construction des amorces, le protocole d’amplification, la taille du génome et même la nature simple ou double brin de l’acide nucléique dans l’échantillon ont tous été identifiés comme sources de biais (3–5). Par exemple, bien que le séquençage shotgun crée des fragments aléatoires pour la génération des lectures, ce caractère aléatoire ne garantit pas automatiquement l’uniformité et peut entraîner une amplification préférentielle de certaines régions génomiques ou transcriptomiques par rapport à d’autres. De même, le séquençage 16S repose sur l’ARN ribosomique 16S (ARNr) en tant que marqueur phylogénétique pour déterminer la composition du microbiome (3).


Sources de biais dans le séquençage de l’ARNr 16S

Le séquençage de l’ARNr 16S cible des régions conservées entourant les régions hypervariables du gène de l’ARNr 16S bactérien et est largement utilisé. L’analyse du gène ARNr 16S a été un pilier de l’analyse bactérienne basée sur la séquence pendant des décennies. (7) L’analyse de la région ITS (Internal transcribed spacer) permet le profilage des génomes fongiques (8).


La prise de conscience mène à des contre-mesures

Le biais est cumulatif. Toute distorsion introduite pendant la préparation de l’échantillon est amplifiée pendant le séquençage et apparaît clairement pendant l’analyse. Il est donc essentiel pour les scientifiques de comprendre les sources potentielles de biais et de développer toute une série de contrôles afin de les compenser. Des contrôles positifs et négatifs peuvent servir à déterminer la variabilité entre les analyses expérimentales avec le même protocole et le même échantillon, tandis que des bases de données comme le projet Microbiome Quality Control peuvent permettre de démontrer la façon dont les changements du protocole se traduisent par des changements dans le résultat final. Enfin, les chercheurs doivent prendre conscience du fait que les efforts consacrés à la détection de certains organismes d’intérêt (p. ex. un agent pathogène) peuvent en masquer de nombreux autres, créant ainsi un portrait biaisé de la communauté microbienne (1). Bien qu’il puisse être impossible d’éliminer complètement le biais, sa compréhension et son atténuation s’avéreront essentielles si la métagénomique est appelée à devenir un outil de diagnostic clinique (1, 6).

Références :
  1. McLaren, M. R. et al. (2019) Consistent and correctable bias in metagenomic sequencing measurements. BioRxiv.
  2. Costea, P.I. et al. (2017) Towards standards for human fecal sample processing in metagenomic studies. Nat. Biotechnol. 35(11), 1069–1076.
  3. Brooks, J. P. et al. (2015)The truth about metagenomics: quantifying and counteracting bias in 16S rRNA studies. BMC Microbiol. 15, 66.
  4. Brinkman, N. E., et al. (2018) Reducing inherent biases introduced during DNA viral metagenome analyses of municipal wastewater. PLoS One 13(4), e0195350.
  5. Beszteri, B. et al. (2010) Average genome size: a potential source of bias in comparative metagenomics. ISME J. 4(8), 1075–1077.
  6. Amrane, S. and Lagier, J. -C. (2018) Metagenomic and clinical microbiology. Hum. Microbiome J. 9,1–6.
  7. Johnson, J.S., Spakowicz, D.J., Hong, B. et al. (2019) Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis. Nat. Commun. 10, 5029. 
  8. Peay K.G. Kennedy P.G., Bruns, T.D. (2008) Fungal Community Ecology: A Hybrid Beast with a Molecular Master. Bioscience. 58:9. 799-810