La phylogénie moléculaire et son application à la Covid-19

Qu’est-ce que la phylogénie moléculaire ?

« En tant que discipline scientifique, il s'agit d'étudier les relations de parentés évolutives entre espèces et, plus généralement, entre organismes vivants. »

Le terme phylogénie vient du grec ancien "phylo-", qui signifie genre ou espèce, et "- géneia" ou "-genèse" qui engendre ou qui génère. En tant que discipline scientifique, il s'agit ici d'étudier les relations de parentés évolutives entre espèces et, plus généralement, entre organismes vivants. Caractériser ces relations est essentiel pour plusieurs raisons. Tout d'abord, la compréhension des phénomènes biologiques passe généralement par la comparaison de différentes espèces : on étudie le développement embryonnaire du nématode pour tenter de découvrir les mécanismes équivalents chez l'homme. La phylogénie définit le cadre méthodologique pour effectuer ces comparaisons. Aussi, la reconstruction de l'« arbre de la vie », c’est-à-dire de la phylogénie de l'ensemble du vivant, permet d'avoir une vision globale de la biodiversité et de mieux comprendre comment celle-ci varie en fonction des changements environnementaux sur des temps longs. Enfin, sur des temps bien plus courts, comme c'est le cas avec l'étude des virus par exemple, la phylogénie permet de retracer les origines géographiques de différentes souches et de mieux appréhender la dynamique spatiale et temporelle de l'épidémie.

La phylogénie est une discipline ancienne. Carl VON LINNE et Georges CUVIER s'intéressaient déjà à la classification des espèces au XVIIIème siècle. Un des carnets de voyages de Charles DARWIN faisait également apparaître un des premiers dessins d'arbre phylogénétique. Mais ça n'est qu'à la fin du XXème siècle et l'avènement des données issues du séquençage rapide de l'ADN que la phylogénie a dépassé le cadre de la systématique. La comparaison de séquences génétiques dans le cadre de l'inférence phylogénétique a permis de faire d'énormes progrès dans notre compréhension de l'évolution à l'échelle moléculaire. Nous avons par exemple, grâce à la phylogénie moléculaire, pu reconstruire des protéines ancestrales, c’est-à-dire des protéines synthétisées par des organismes disparus de la surface du globe depuis des millions d'années, et ainsi étudier leurs propriétés biochimiques. La phylogénie moléculaire permet également de mesurer le taux auquel surviennent les mutations au sein des séquences génétiques et de calibrer une « horloge moléculaire ». Cette dernière permet alors de dater des évènements survenus au cours de l'évolution à partir de l'analyse de la diversité génétique.

Comment fonctionne le logiciel PhyML ?

« Nous avons travaillé à rendre PhyML accessible à tous et avons créé la plateforme web ATGC bioinformatics permettant de l'utiliser sur nos propres serveurs de calculs. »

PhyML est un logiciel de reconstruction d'arbres phylogénétiques basé sur le principe statistique du maximum de vraisemblance. L'approche statistique est tout à fait adaptée à l'analyse des séquences génétiques puisque chacune de celles-ci correspond à une suite de lettres et qu'il n'existe que quatre de ces lettres : les quatre bases de l'ADN. Il est alors relativement aisé de mettre en place des modèles dits probabilistes qui permettent de calculer la probabilité qu'une séquence d'ADN ancestrale évolue au cours d'une période de temps donnée en une nouvelle séquence par l'accumulation de mutations en son sein. Généralisé à l'analyse de plusieurs séquences, nous pouvons, grâce à un algorithme ingénieux, évaluer la probabilité d'observer les séquences d'un échantillon sachant que ces dernières sont le fruit de l'évolution le long d'un arbre phylogénétique donné. Cette probabilité correspond à la fameuse fonction dite de vraisemblance. Notre objectif est alors de la maximiser, autrement dit, de trouver l'arbre phylogénétique de vraisemblance maximale au vu de nos données.

PhyML a été conçu au début des années 2000. Il existait déjà à cette période d'autres logiciels de reconstruction d'arbres phylogénétiques mais ces derniers ne permettaient pas l'analyse de jeux de données de plus d'une dizaine de séquences avec des temps de calculs raisonnables. Nous avons ici mis au point de nouveaux algorithmes qui ont permis de maximiser la vraisemblance de manière bien plus efficace. Ces améliorations ont conduit à une accélération spectaculaire des calculs, offrant la possibilité de traiter des jeux de données constitués de plusieurs centaines de séquences. Les volumes de données génétiques ont depuis continué de croître à un rythme très soutenu. Nous avons donc poursuivi nos efforts de recherche et implémenté un grand nombre de nouvelles méthodes d'optimisation des calculs au sein de PhyML. En parallèle, nous avons travaillé à rendre PhyML accessible à tous et avons créé une plate-forme web (http://www.atgc-montpellier.fr) permettant de l'utiliser sur nos propres serveurs de calculs. A l'heure actuelle, cette plate-forme compte plus de 350 000 heures de calculs par an, avec environ 30 % des analyses lancées à partir de l'Europe, 20 % d'Amérique du Nord, 15 % de Chine, 10 % du Japon et 25 % du reste du monde.

Quel rôle joue PhyML et la phylogénie en général dans la recherche sur les virus et notamment sur la COVID-19 ?

« L'objectif était de déterminer si ces génomes descendaient tous d'un même virus ancêtre ayant infecté un premier humain, le fameux patient 0 […]. »

PhyML a été utilisé pour reconstruire l'arbre phylogénétique des premiers génomes du virus SARS-CoV-2 (ou SRAS-CoV-2) qui ont été séquencés. L'objectif était de déterminer si ces génomes descendaient tous d'un même virus ancêtre ayant infecté un premier humain, le fameux patient 0, avant de diffuser plus largement au sein de la population par des transmissions entre humains. Une hypothèse alternative, que la phylogénie a permis d'écarter, était celle de transmissions multiples et continues du virus de l'animal à l'homme. Si ce scénario s'était révélé exact, la phylogénie des virus observés chez les premiers patients infectés aurait mis en évidence autant de lignées virales, ou sous-arbres de la phylogénie, que de transmissions de l'animal vers l'homme. Des analyses phylogénétiques ultérieures, réalisées avec une centaine de séquences collectées dans la province chinoise de Hubei, ont néanmoins mis en évidence l'existence de deux grandes lignées ou souches de virus SARS-CoV-2. L'origine de l'une de ces deux souches, la plus répandue à l'heure actuelle, est liée au marché de fruits de mer de Huanan et l'autre souche est issue de la ville de Vuhan mais n'a pas de lien direct avec le marché de Huanan. Ces résultats suggèrent donc l'occurrence de deux évènements indépendants de transmission du virus vers l'homme.

Par ailleurs, les techniques de datation moléculaire ont donné les premières estimations de l'âge du premier virus SARS-CoV-2 que l'on peut interpréter comme la date de transmission du virus au patient 0. Sous certaines conditions, l'horloge moléculaire s'applique et il est alors possible d'établir une corrélation entre le nombre de mutations au sein des génomes et le temps écoulé correspondant. L'inférence phylogénétique permet d'inférer ces nombres de mutations et d’en déduire l'âge de l'ancêtre commun à l'ensemble des génomes en circulation (qui ont été échantillonnés). L'âge obtenu se situe entre la fin du mois de novembre et mi-décembre 2019, en bonne adéquation avec les estimations dérivées de sources distinctes.

Vous proposez deux formations sur la phylogénie moléculaire avec CNRS Formation Entreprises, en quoi consistent-elles ?

« Nos formations sont destinées aux chercheurs et aux ingénieurs qui manipulent des données de séquences moléculaires pour réaliser des analyses dans différents contextes allant de l'étude de la biodiversité à l'identification de souches pathogènes en passant par le suivi épidémiologique. »

La formation en phylogénie moléculaire est, depuis 2020, composée de deux sessions de trois jours : la première est une formation de base et la seconde est une formation avancée. L'objectif de la formation de base est d'amener les stagiaires à pouvoir inférer un arbre phylogénétique à partir de données moléculaires (typiquement des séquences d'ADN) et à savoir interpréter les résultats obtenus. Ceci repose sur une bonne compréhension des hypothèses retenues au sein des différentes méthodes d'inférence, ce qui amène à en connaître les propriétés et les limitations. Ces méthodes reposent sur des concepts statistiques et algorithmiques qui sont présentés lors de la formation. Un socle minimum de connaissances dans ces domaines est donc requis pour appréhender la formation. La session avancée couvre un large éventail de méthodologies d'analyse phylogénétique qu'on peut réaliser quand on dispose d'un arbre phylogénétique et des données moléculaires correspondantes. On peut citer par exemple la détection de sélection positive qui permet d'identifier les gènes de résistance des agents pathogènes, ou encore les analyses de phylodynamique utilisées pour inférer des paramètres épidémiologiques (par exemple pour la COVID-19 (http://virological.org/t/phylodynamic-analysis-176-genomes-6-mar-2020/356)). Il est nécessaire d'avoir acquis les concepts abordés lors de la formation de base pour suivre la session avancée. Nos formations sont destinées aux chercheurs et aux ingénieurs qui manipulent des données de séquences moléculaires pour réaliser des analyses dans différents contextes allant de l'étude de la biodiversité à l'identification de souches pathogènes en passant par le suivi épidémiologique.

Un article rédigé par Stéphane GUINDON, Chargé de recherche et Vincent LEFORT, Responsable technique de la plateforme de bioinformatique ATGC, Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM), UMR 5506 du CNRS.

Nos actualitéset articles