• @pseudo
    link
    Français
    99 months ago

    les données sont agrégées et anonymisées

    Pseudonymisée plutôt oui. J’attend de voir la méthode d’anonymisation qui préserve l’information contenu dans le jeu de données.

    • @Sphks@lemmy.dbzer0.com
      link
      fedilink
      49 months ago

      ça me rappelle à chaque fois le cas AOL, et le début du crowdsourcing de masse.

      Le fournisseur d’accès internet AOL proposait un moteur de recherche assez utilisé à une époque. Pour permettre aux chercheurs de chercher, AOL a rendu publique les requêtes sur leur moteur, pseudonymisées. Une quantité énorme d’informations qui permettaient aux chercheurs du monde entier de faire des statistiques et d’améliorer les recherches.

      Sauf que … un site a proposé aux internautes du monde entier de faire des analyses manuelles pour identifier la vie des personnes. J’y avais participé. En gros tu arrives, tu pioches un ensemble de requêtes réalisées par la même personne, et tu écris un petit rapport. La plupart des trucs piochés étaient nuls. Mais il arrivait qu’on tombe sur un jeu de données très intéressant qui en disait plus sur la personne. J’étais tombé sur un jeu de requêtes avec des recherches d’adresses postales, des recherches sur une université des US, et d’autres recherches qui donnait le style de vie ado. On pouvait assez facilement imaginer la vie de l’ado.

    • un_blob
      link
      29 months ago

      Bah , si c’est du même acabit que les données médicales va y en avoir des fuites et des boulettes… (Je ne dirais pas qui mais … des donnés ou celui qui les analyses s’est retrouvé avec un dump brut des noms, prenom, numéro de sécu… et récent en plus…)