Par Gabrielle Hartley

Représentation du génome humain Profession Santé logo 07/04/2022

Plus de la moitié du génome humain contient des séquences d’ADN répétitif dont les fonctions ne sont pas encore parfaitement comprises. (Photo Getty Images)

Lorsque le Projet Génome humain a annoncé qu’il avait achevé le premier séquençage du génome humain en 2003, il s’agissait d’une réalisation historique: pour la première fois, le code génétique de la vie humaine était déchiffré.

Il y avait toutefois un bémol: on n’avait pas été en mesure de rassembler toutes les informations du génome.

Il y avait des trous: des zones non remplies, souvent répétitives, qui étaient trop complexes pour être reconstituées.

Grâce aux progrès de la technologie permettant de traiter ces séquences répétitives, les scientifiques ont finalement comblé les trous en mai 2021, et le premier génome humain complet a été officiellement publié le 31 mars 2022.

En tant que biologiste du génome, j’étudie les séquences d’ADN répétitif et la manière dont elles ont façonné les génomes au cours de l’histoire de l’évolution.

J’ai fait partie de l’équipe qui a contribué à caractériser les séquences répétitives manquantes dans le génome.

Avec un génome humain vraiment complet, on peut enfin explorer ces régions répétitives jusqu’ici inconnues.

Les pièces manquantes du casse-tête

C’est le botaniste allemand Hans Winkler qui a inventé le terme «génome» en 1920, en combinant le mot « gène » et le suffixe « -ome », qui signifie « ensemble complet », pour représenter la séquence complète d’ADN contenue dans chaque cellule.

Les chercheurs utilisent toujours ce mot un siècle plus tard pour désigner le matériel génétique qui compose un organisme.

On peut décrire un génome en le comparant à un ouvrage de référence.

Dans cette analogie, un génome est une anthologie qui contient les instructions de l’ADN pour la vie.

Il renferme un large éventail de nucléotides (les lettres) qui sont empaquetés en chromosomes (les chapitres).

Chaque chromosome comporte des gènes (les paragraphes), des régions de l’ADN codant pour les protéines qui assurent le fonctionnement d’un organisme.

Le matériel génétique est constitué d’ADN empaqueté dans des chromosomes. Seules certaines régions de l’ADN d’un génome contiennent des gènes qui codent pour des protéines. (GettyImages)

Le matériel génétique est constitué d’ADN empaqueté dans des chromosomes. Seules certaines régions de l’ADN d’un génome contiennent des gènes qui codent pour des protéines. (Getty Images)

Si tout organisme vivant possède un génome, la taille de ce dernier varie d’une espèce à l’autre.

Un éléphant utilise la même forme d’information génétique que l’herbe qu’il mange et que les bactéries de son intestin.

Mais il n’existe pas deux génomes identiques. Certains sont courts, comme celui de la bactérie Nasuia deltocephalinicola, qui vit dans des insectes, avec seulement 137 gènes comprenant 112 000 nucléotides.

D’autres, comme celui de la plante Paris japonica, avec 149 milliards de nucléotides, sont si longs qu’il est difficile de se faire une idée du nombre de gènes qu’ils renferment.

Mais les gènes tels qu’on les conçoit habituellement, c’est-à-dire des portions d’ADN qui codent pour des protéines, ne représentent qu’une petite partie du génome d’un organisme.

En fait, ils représentent moins de 2% de l’ADN humain.

Le génome humain contient environ 3 milliards de nucléotides et un peu moins de 20 000 gènes qui codent pour des protéines, soit environ 1% de la longueur totale du génome.

Les 99% restants sont des séquences d’ADN non codantes qui ne produisent pas de protéines.

Certaines ont un rôle de régulation et fonctionnent comme un répartiteur, en contrôlant l’activité d’autres gènes.

D’autres sont des pseudogènes, ou des reliques génomiques qui ont perdu leur capacité à fonctionner.

Et plus de la moitié du génome humain est répétitive, avec de multiples copies de séquences quasi identiques.

Qu’est-ce que l’ADN répétitif?

La forme la plus simple d’ADN répétitif est constituée de blocs d’ADN répétés en tandem appelés satellites.

La quantité d’ADN satellite d’un génome donné varie d’une personne à l’autre, mais ils sont souvent regroupés vers les extrémités des chromosomes dans les télomères.

Ces régions protègent les chromosomes en empêchant leur dégradation pendant la réplication de l’ADN.

On les trouve également dans les centromères des chromosomes, qui permettent de conserver l’information génétique intacte lors de la division cellulaire.

Les chercheurs ne comprennent pas encore très bien toutes les fonctions de l’ADN satellite.

Mais comme il forme des motifs uniques chez chaque personne, les biologistes légistes et les généalogistes utilisent cette «empreinte» génétique pour faire correspondre des échantillons prélevés sur des scènes de crime ou retracer les ancêtres d’une personne.

Plus de 50 maladies génétiques sont liées à des variations de l’ADN satellite, dont la maladie de Huntington.

 L’ADN satellite se retrouve principalement vers les extrémités des chromosomes, dans leurs télomères. Ici, on peut voir les 46 chromosomes humains en bleu, avec les télomères en blanc. (Nih Image Gallery/Flickr, CC BY-NC)

L’ADN satellite se retrouve principalement vers les extrémités des chromosomes, dans leurs télomères. Ici, on peut voir les 46 chromosomes humains en bleu, avec les télomères en blanc. (Nih Image Gallery/Flickr, CC BY-NC)

Un autre type répandu d’ADN répétitif est celui des éléments transposables, ces séquences qui peuvent se déplacer dans le génome.

Des scientifiques les ont qualifiés d’ADN égoïste, car il peut s’insérer n’importe où dans le génome, quelles qu’en soient les conséquences.

Au cours de l’évolution du génome humain, de nombreuses séquences transposables ont accumulé des mutations qui répriment leur capacité à changer de place et évitent ainsi les interruptions nuisibles.

Mais certaines peuvent probablement encore se déplacer.

Les insertions d’éléments transposables sont liées à certains cas d’hémophilie A, un trouble génétique de la coagulation.

Les éléments transposables n’ont pas seulement un effet perturbateur, ils peuvent aussi avoir des fonctions régulatrices qui aident à contrôler l’expression d’autres séquences d’ADN.

Lorsqu’ils sont concentrés dans les centromères, ils peuvent contribuer à maintenir l’intégrité des gènes fondamentaux pour la survie de la cellule.

Ils peuvent également contribuer à l’évolution. Des chercheurs ont découvert récemment que l’insertion d’un élément transposable dans un gène important pour le développement pourrait expliquer pourquoi certains primates, dont l’homme, n’ont plus de queue.

Les réarrangements chromosomiques causés par les éléments transposables sont même liés à la genèse de nouvelles espèces comme les gibbons d’Asie du Sud-Est et les wallabys d’Australie.

Compléter le casse-tête génomique

Jusqu’à récemment, on pouvait comparer beaucoup de ces régions complexes à la face cachée de la Lune: on connaissait leur existence, mais on ne les voyait pas.

Quand le Projet Génome humain a été lancé en 1990, les limites technologiques empêchaient de mettre au jour toutes les régions répétitives du génome.

La technologie de séquençage de l’époque ne permettait de lire qu’environ 500 nucléotides à la fois, et ces courts fragments devaient se chevaucher les uns les autres pour que l’on puisse recréer la séquence complète.

Les chercheurs ont utilisé ces segments superposés pour identifier les nucléotides suivants dans la séquence, assemblant ainsi progressivement le génome, un fragment à la fois.

Assembler les régions répétitives, c’était comme reconstituer un casse-tête de 1000 pièces représentant un ciel couvert: quand toutes les pièces se ressemblent, comment savoir où commence un nuage et où finit un autre?

En raison du chevauchement de segments presque identiques à de nombreux endroits, le séquençage complet du génome bout par bout était irréalisable.

Des millions de nucléotides demeuraient cachés dans la première version du génome humain.

Depuis lors, on a progressivement comblé les trous du génome humain en découvrant des séquences.

Et, en 2021, le consortium Telomere-to-Telomere (T2T), qui regroupe des scientifiques d’un peu partout dans le but d’assembler le génome humain d’un bout à l’autre, a annoncé que tous les trous avaient été comblés.

Avec l’achèvement du premier génome humain, les chercheurs souhaitent maintenant saisir toute la diversité de l’humanité.

C’est l’amélioration de la technologie de séquençage, qui permet de lire des séquences plus longues, de plusieurs milliers de nucléotides, qui a rendu cette découverte possible.

Avec plus d’informations pour situer les séquences répétitives dans un tableau plus large, l’identification de leur place dans le génome s’en est trouvée facilitée.

Comme si on transformait un casse-tête de 1000 pièces en une version de 100 pièces, la lecture de séquences longues a permis d’assembler pour la première fois de grandes régions répétitives.

Grâce à la puissance croissante de la technologie de séquençage de longue lecture de l’ADN, les généticiens sont en mesure de se lancer dans une nouvelle ère de la génomique, en démêlant pour la première fois des séquences répétitives complexes au sein de diverses populations et espèces.

Un génome humain complet et sans trous constitue pour les chercheurs une ressource inestimable pour étudier les régions répétitives qui façonnent les structures et les variations génétiques, l’évolution des espèces et la santé humaine.

Cependant, un seul génome complet ne permet pas de tout saisir.

Les scientifiques poursuivent leurs efforts pour créer diverses références génomiques qui représentent pleinement la population humaine et la vie sur Terre.

Avec des références génomiques plus complètes, «de télomère à télomère», on pourra mieux comprendre la matière noire répétitive de l’ADN.​

À PROPOS DE L’AUTEURE:

Gabrielle Hartley est candidate au doctorat en biologie moléculaire et cellulaire, à l’Université du Connecticut. Elle a reçu des financements de la National Science Foundation.

Cet article est republié à partir de The Conversation sous licence Creative Commons.

Les thérapies épigénétiques en phase d’étude clinique se basent sur le blocage de certaines enzymes, mais leur manque de spécificité génère de lourds effets indésirables.