• 2 Posts
  • 21 Comments
Joined 1 year ago
cake
Cake day: November 16th, 2023

help-circle










  • Sur une instance Lemmy comme celle-ci qui cherche de la visibilité, cela ne va pas de soit en effet.

    Mais qu’en est-il du contenu publié sur les grosses plateformes type Twitter, Reddit, LinkedIn ? Personnellement, je souhaite toujours y publier, car je souhaite bénéficier de leur hébergement et de leur visibilité. Cependant, je n’ai pas envie que ces plateformes fassent ce qu’elles veulent de mon contenu sous prétexte que perdu dans leur T&C, il est mentionné “ton contenu est à nous, on fait ce qu’on veut avec”.

    C’est une question de choix : Parfois, je souhaite que mon contenu soit public et en clair. Parfois, je souhaite qu’il soit “redakté” car je n’ai pas envie qu’il soit indexé par les bots de Google ou utilisé pour entrainer les IA d’OpenAI.




  • Oups, j’avais mal compris. Je me reprends.

    En effet, ils pourraient le faire. Si c’est le cas, l’ajout d’un simple captcha rendrait leur méthode obsolète et les empêcherait donc de “scale”.

    Je ne dis pas que cette méthode est impénétrable. Le but est d’apporter un moyen qui empêcherait le data mining à l’échelle actuelle.

    Le moindre petit changement sur l’extension de Redakt (captcha, input, output, méthode de chiffrement) n’aurait aucun effet sur l’expérience des vrais utilisateurs, mais obligerait les scrappeurs à s’adapter constamment et leur demanderait des ressources (humaine + machine) conséquentes pour mettre à l’échelle.



  • En effet c’est assez trivial si on le compare à du chiffrement E2E qui sécurise aujourd’hui nos communications privées (WhatsApp, Signal, etc.).

    Mais Redakt tente d’ajouter une touche de “privacy” dans un contexte de collecte massive de communication publique.

    Prenons ce forum par exemple. Il sera très certainement scrappé puis utilisé pour entrainé des versions futures de ChatGPT.

    Si chaque posts de ce forum était “redakted”, cela obligerait les data engineers d’OpenAI d’adapté leur dataset face à un flux de données toujours plus hétérogènes à mesure que Redakt change ses méthodes de chiffrement.

    Bien sur, je compte ajouter des options de chiffrement plus complexes dans les versions futures de Redakt. Ainsi les utilisateurs pourraient choisir le niveau de chiffrement de leur contenu.



  • Très bonne question ! Dans le contexte actuel ils ne le font pas (trop occuper à agréger des millions de data-point en clair).

    Si les bots s’adaptent (et ils le feront si Redakt est utilisé par une quantité significative d’utilisateurs) alors c’est une course.

    L’objectif est de mettre des batons dans les roues de la collecte massive de données “at scale”. En effet une petite modification dans la manière de chiffrer de Redakt obligerait les bots à s’adapter, hors ce n’est pas scalable.