Aucune info fracassante, juste des explications sur la notion d’échantillon, ou comment est-ce qu’on arrive à compter le nombre de poissons dans la mer - mais qu’on se trompe toujours.

  • flyos
    link
    fedilink
    Français
    arrow-up
    2
    ·
    1 year ago

    Ah bah, ça je peux répondre !

    L’idée derrière ces méthodes, c’est essentiellement une idée de “clustering”. C’est à dire¹ que tu as des génotypes (“est-ce qu’un individu est AA, Aa ou aa pour un site donné ?”) sur un grand nombre de sites dans le génome pour chaque individu, et ce que tu veux faire, c’est grouper les individus. Le principe derrière, c’est que tu vas partir du postulat (pas exactement vrai…) que tous individus actuels dans ton échantillons viennent de K différentes populations, qu’on appelle souvent “populations ancestrales”. Et à l’aide des corrélations (on appelle ça le “déséquilibre de liaison” en génétique) entre les génotypes sur tes différents sites, tu vas définir une sorte de “génome type” qui correspond à chacune des K populations, et classifier ensuite les individus en fonction de leur proximité à ce génome (je sursimplie, ça marche pas vraiment comme ça, mais l’idée est la bonne). Quant au choix du meilleur nombre de populations ancestrales K, c’est un sujet encore très débattu, on a différentes méthodes plus ou moins robustes et plus ou moins efficaces.

    Tout ça pour dire que cette notion de population ancestrale est à prendre avec plein de pincettes, c’est avant tout une hypothèse qu’on pose pour pouvoir écrire les modèles statistiques utilisés. Ça peut correspondre à une réalité biologique… ou non. Chez l’Humain, à l’échelle de toute la planète, c’est forcément une hypothèse bancale, puisqu’il n’y a pas une population ancestrale indépendante pour chaque coin du globe, puisqu’on vient tous d’Afrique. Même pour l’Europe, ça reste compliqué à prendre vraiment au pied de la lettre, étant donné les nombreuses immigrations venues d’Afrique et d’Asie au cours du temps.

    Quant au côté historique, on utilise essentiellement le fait qu’on peut toujours trouver un ancêtre commun à deux allèles (version d’un site du génome) si on remonte suffisamment loin dans le temps, c’est qu’on appelle la théorie du coalescent. Le temps nécessaire à remonter pour trouver cet ancêtre dépend de la taille de la population à différentes époques dans le passé. En estimant ce temps à différents sites et pour différents individus, on peut établir une sorte d’historique des tailles de populations dans le passé. Avec les données sur tout le génome, on peut même faire ça à partir d’un unique individu.

    J’espère que c’est plus clair, dis-moi si ça l’est pas.

    Quelques ressources sur les concepts derrières :


    ¹: Attention, c’est vraiment expliqué en très résumé. Tout ça, c’est des modèles statistiques assez complexes derrière.

    • voeligOP
      link
      fedilink
      Français
      arrow-up
      1
      ·
      1 year ago

      Super. Dire que c’est clair est très exagéré, je dirais que ça se débroussaille :-).

      C’est super ces liens sur wikipédia, mais comme je participe à la rédaction, je dois non seulement comprendre, mais encore donner les références qui vont bien. Du coup c’est mieux de me donner des références en dehors de wikipédia :-) Mais déjà celles-la c’est bien ça me permet de compléter qui va avec quoi. C’est important dans la vulgarisation de faire les liens avec les choses.

      Je découvre à vous lire l’importance de la notion de “population ancestrale”. J’en ai cherché la définition dans la littérature - toujours en dehors de wikipédia -, mais malheureusement je ne l’ai pas trouvée.