jlai.lu
  • Communities
  • Create Post
  • Create Community
  • heart
    Support Lemmy
  • search
    Search
  • Login
  • Sign Up
inlandempire to Technologie - 🤖Français · 4 months ago

Copyright : NVIDIA a contacté Anna’s Archive pour entrainer ses IA sur des millions de livres

next.ink

external-link
message-square
7
link
fedilink
20
external-link

Copyright : NVIDIA a contacté Anna’s Archive pour entrainer ses IA sur des millions de livres

next.ink

inlandempire to Technologie - 🤖Français · 4 months ago
message-square
7
link
fedilink
Copyright : NVIDIA a contacté Anna’s Archive pour entrainer ses IA sur des millions de livres - Next
next.ink
external-link
alert-triangle
You must log in or # to comment.
  • keepthepace@tarte.nuage-libre.fr
    link
    fedilink
    English
    arrow-up
    6
    arrow-down
    1
    ·
    4 months ago

    Le problème:

    • Ils le font tous
    • Y a pas d’autre moyens pour concurrencer ceux qui le font derrière des portes fermées
    • NVidia publie ses datasets (ce qui est cool pour l’open-source!), donc est bien plus obligée de l’admettre
    • J’ai aucun espoir que dans un climat aussi polarisé contre «l’IA» on arrive à trouver un créneau pour une tolérance des ayant-droits vis à vis de ces usages (Google a une époque faisait des partenariats avec des bibliothèques par exemple)

    De plus en plus de labos passent à des données dites synthétiques pour entraîner leurs LLMs, c’est à dire que ce sont des données produites par d’autres LLMs, dont on «ne sait pas» s’ils ont piraté des contenus pour être entraînés, mais les datasets synthétiques, c’est sur, y a zéro copyright dedans (car la sortie d’un modèle génératif n’est pas copyrightable, d’après une étrange décision de justice US).

    C’est une perte de temps pour contourner techniquement un manquement législatif, ça rend assez amer, mais bon, le copyright s’est toujours pas adapté à l’existence d’internet, lui demander de s’adapter à l’IA, ça a peu de chances d’arriver avant 2080.

    • RelativityRanger
      link
      fedilink
      Français
      arrow-up
      1
      ·
      4 months ago

      À noter que réinjecter un corpus synthétique réduit mécaniquement les performances d’un modèle
      https://en.wikipedia.org/wiki/Model_collapse

      • keepthepace@tarte.nuage-libre.fr
        link
        fedilink
        Français
        arrow-up
        1
        ·
        4 months ago

        On a eu plusieurs articles qui ont présenté ça comme une fatalité mais ça n’a pas l’air de se retrouver en pratique dans les LLMs

        Pendant au moins une génération, ça s’explique assez bien: Dans les teratokens qui ont été injectés, y a beaucoup de trucs à jeter, y a des choses fausses, y a des redondances, des infos obsolètes, des textes de mauvaise qualité.

        Un LLM qui a déjà effectué un apprentissage dessus a moyen de ressortir un dataset sans ces choses. C’est techniquement des infos qui ont disparues, peut être même certaines infos utiles filtrées par erreur, mais c’est aussi un dataset qui va aller à l’essentiel et retenir plus rapidement les choses importantes. La généralisation arrive plus vite.

  • inlandempireOP
    link
    fedilink
    Français
    arrow-up
    3
    ·
    4 months ago

    J’ai édité le lien original qui venait de BFM, voilà d’autres sources supplémentaires, certaines en anglais

    • https://www.numerama.com/tech/2164701-nvidia-se-retrouve-accuse-dutiliser-la-bibliotheque-pirate-annas-archive-pour-entrainer-ses-ia.html
    • https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-accused-of-trying-to-cut-a-deal-with-annas-archive-for-high-speed-access-to-the-massive-pirated-book-haul-allegedly-chased-stolen-data-to-fuel-its-llms
    • https://videocardz.com/newz/court-filing-claims-nvidia-contacted-annas-archive-for-pirated-books-used-in-ai-training
    • https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/
  • Professeur Falken
    link
    fedilink
    Français
    arrow-up
    2
    ·
    4 months ago

    “On s’en fout de l’illégalité, on veut juste la BDD.”

  • Electricd@lemmybefree.net
    link
    fedilink
    Français
    arrow-up
    1
    ·
    4 months ago

    Tout le monde le sait en vrai, mais c’est assez drôle de les voir solliciter des projets communautaires

  • baitu@mastodon.social
    link
    fedilink
    arrow-up
    1
    ·
    4 months ago

    @inlandempire Voilà la vraie motivation du scrapping massif qu’a fait Anna’s Archive

Technologie - 🤖

technologie

Subscribe from Remote Instance

Create a post
You are not logged in. However you can subscribe from another Fediverse account, for example Lemmy or Mastodon. To do this, paste the following into the search field of your instance: !technologie@jlai.lu

Ici concerne le champs de domaine large de la technologie : actualités sur l’informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.

Mégafil ici

  • Le pass BnF pour accéder à la presse : https://jlai.lu/post/4214444

  • https://archive.is/ pour accéder aux articles avec paywalls

  • !tipiak@anarchist.nexus pour les ISOs d’Ubuntu

Visibility: Public
globe

This community can be federated to other instances and be posted/commented in by their users.

  • 18 users / day
  • 47 users / week
  • 137 users / month
  • 521 users / 6 months
  • 376 local subscribers
  • 1.08K subscribers
  • 1.4K Posts
  • 4.37K Comments
  • Modlog
  • mods:
  • anansi
  • _BG_
  • Mell
  • bassad
  • Saule
  • BE: 0.19.18
  • Modlog
  • Legal
  • Instances
  • Docs
  • Code
  • join-lemmy.org