Hello!
bon slrpnk.net a l’air d’être dans les choux alors je lance ce post avec mon compte de secours jlai.lu
Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l’anglais. Et je trouve qu’en français, ben y a pas grand chose. C’est presque uniquement du discours dystopique mal informé.
Rien sur la recherche sur l’alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.
On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d’une forêt bien plus grande.
Perso ça va faire 5 ans que je fais du deep learning professionnellement. J’ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c’est un projet plus ou moins mort, mais c’était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d’autres.
J’ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J’ai réussi à passer au 4/5e l’année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j’utilise des modèles de deep learning pour la vision).
Ça fait plus de 20 ans que j’ai réalisé que l’IA a le potentiel de changer le monde pour le mieux, c’est pas par hasard que j’ai essayé de m’orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d’aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.
J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!
Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!
Voila, je préférerais qu’on reste sur ces thèmes mais AMA anyway!
Content que tu le prennes bien, j’ai trouvé ma réponse d’hier un peu agressive, désolé!
Depuis que j’ai lu le jugement de Google contre la guilde des auteurs, où un juge donne à Google un blanc seing à clairement violer la loi (reproduire des pages de bouquins sans autorisation des auteurs) j’ai compris que la loi, elle est davantage dite par les juges que par le législateur. Si Facebook fait des trucs illégaux en France derrière des portes fermées aux US, l’interdire ne va handicaper que les efforts ouverts.
Quelles dérives? L’open source est la seule raison qui a permis d’éviter les futurs les plus dystopiques en ligne, qui a permis à internet de continuer à être relativement libre (si si, les GAFAM sont tous optionnels, c’était pas gagné) et c’est encore en majorité sur des projets open source qu’internet se base. Les combats sont toujours en cours sur plein de champs de bataille. C’est un peu perdu sur les téléphone, sur l’IA on est en train de gagner mais faut pas vendre la peau de l’ours prématurément.
Je ne vois pas de quelle dérive tu parles? L’open source fait économiser de l’argent à tout le monde, c’est une tellement bonne idée que plein de boites privées s’y sont mises. C’est pas une dérive, c’est une volonté de base. C’est un projet qui est encore, dans son essence, anarcho-communiste (lien vers un post+commentaire qui explique ça plus en détails) Que des turbo-capitalistes y participent sans aucune concession de notre part et “donnent” des contributions est une victoire totale, pas une compromission ou une dérive.
Le droit d’auteur (en général, pas spécifiquement le français) est ce qui a permis à notamment Google et Youtube de vendre un système centralisé comme essentiel à tout. Pendant longtemps on a eu un système très supérieur à Youtube pour voir des vidéos en ligne: P2P+VLC et j’arguerais que c’est encore une combo supérieure en terme de contenus. Ce sont les ayant droits qui ont rendu ce système illégal alors que non commercial, volontaire, non-capitaliste.
Le web différent, il a été rendu illégal. La tech est là et toutes les libs derrière elle sont open source.
Les lois en vigueur sont si floues et mal définies qu’on ne sait toujours pas si les poids d’un modèle sont copyrightable ou si c’est un produit dérivé des oeuvres vues à l’entrainement. Y a des arguments dans les deux sens, la loi ne le dit pas, et le premier jugement rendu dépendra de la rhétorique des avocats et de ce que je juge aura mangé à midi. Et des usages en vigueur, qui sont un argument fort: c’est un noeud gordien: l’usage deviendra légal s’il est répandu. J’exagère pas, on en est là. On a des exhortations à respecter une loi dont la lettre est floue et dont l’esprit est bafoué par ceux qui nous demandent de faire la chose soit-disant morale.
Tu admettras qu’il y a quand même une différence fondamentale entre des auteurs qui ont produit leurs œuvres et les gens qui en ont hérité parfois sans avoir même connu l’auteur. Dune, Tintin, Lord of the Ring, Ambre, et j’en passe sont des franchises mutilées par des héritiers alors qu’elles se porteraient mieux dans les mains de leurs fans. Il suffit de voir l’explosion de créativité autour des univers de Lovecraft ou de Conan Doyle quand ils sont tombés dans le domaine public pour voir que le droit d’auteur ampute la culture.
Je veux bien entendre les intérêts des créateurs de leur vivant (et encore, le copyright original c’était 21 ans après la première publication), mais je dois t’avouer que pirater du Tintin ou du Brel, j’ai du mal à voir ça comme immoral.
“Publier” veut dire “Mettre entre les mains du public”, c’est donner à l’oeuvre une liberté de participer à la construction de l’imaginaire collectif et de la culture. J’ai l’impression que cette composante du contrat social est un peu trop souvent oubliée.
Alors je lutte beaucoup contre cette tendance à faire de “la tech” et des “boites techs” des synonymes. Ça invisibilise toute la partie non-capitaliste de la tech, tout l’open source, et tous les activistes numériques qui crient dans le vide depuis des décennies mais qu’on est bien content de trouver quand une partie pratique du web se merdifie.
L’évolution sociale, oui, elle suit et boit les paroles des grosses boites et ignore la voix de la “tech”, la vraie, celle des devs, ingés et des chercheurs qui la font. Je ne sais pas qui accuser en priorité, je trouve que les journalistes ont un grand rôle, mais j’ai aussi décidé que c’était aussi à moi de parler sur un mode un peu plus politique, un peu plus culturel, des sujets ouverts qui me tiennent à coeur quand j’entends trop de mensonges ou d’idées fausses à leur encontre.
Le truc c’est que tu confond les législations, au US oui les tribunaux font en large partie la lois, mais ça n’est pas le cas ni en France, ni en Europe. Donc ce que tu racontes ne concerne pas tous les auteurs et pas les auteurs français. Du coup même si je te sors un contre-exemple, vu que tu mélange les juridictions et les procésus qui permettent de parvenir aux jugements tu pourra toujours t’en tirer.
Le droit d’auteur francais il dit : tout ce qui n’est pas prévus par la loi et/ou qui est réalisé sans consentement de l’auteur est interdit. C’est pas flou du tout. C’est flou seulement si le but est de jouer au con.
Dans la questions de l’IA, il y a le fait que les seuls outils sur le web qui permettent de respecter les volontés des auteurs sont les licences libres et ouvertes, c’est pour ça que les boites tech sont des pirates, c’est pas les lois sur la PI qui les emmerde, c’est le fait qu’il y des alternatives pour la construction de dataset dont elles ne veulent pas se servir en les respectant complètement.
Les problèmes de l’Open source rapido : absence d’historicité, sans obligation de paternité on ne sait pas qui a fais quoi. On ne sort pas les oeuvres du système capitaliste (qui se conjugue en l’occurrence très bien avec ton anarchie communisme) grâce a l’absence de clause share alike. Enfin sans auteur, plus de responsabilité de l’auteur sur son oeuvre (argument du “c’est la communauté qui veut ça hein”). L’Open source c’est libertaire et libertarien, anar ok, communiste : sûrement pas!
L’Open source et le mouvement libriste ne peuvent exister sans les législations actuelles sur la PI, ces mouvements s’appuient directement dessus même. C’est pas une opposition, ce sont des usages que permettent les lois.
Les techs devraient comprendre que la société évolue plus lentement sur ses sujets et qu’elle a besoins d’un minimum de recul sur les pratiques pour créer de la législation. Dans le même temps les boites techs devraient suivrent les lois. C’est plus clair ? J’ai pas eu l’impression de faire des amalgames pourtant…
Après c’est bien d’avoir sa propre lecture des choses (notion de publication), mais historiquement dans le droit d’auteur il y a une notion de responsabilité de l’auteur sur sa production. C’'est pas parce qu’une oeuvre est publiée que l’auteur doit pouvoir se laver les mains de ses effets ou de se qu’elle devient. Or c’est exactement ce que tu décris : un auteur irresponsable qui peut faire n’imp sans en assumer les conséquences vu que “l’oeuvre appartient au publique”. Ça, ça s’appelle dissocier l’artiste de son oeuvre. Je suis pas sur que ça soit une bonne chose de revenir en arrière sur ce point…
Bah si c’est flou. C’est prévu par la loi de pouvoir regarder une oeuvre et de s’en inspirer. C’est interdit d’en faire une oeuvre dérivée. Miyazaki a eu le droit de regarder Le Roi et l’Oiseau et de s’en inspirer pour ses oeuvres aériennes et oniriques. Un auteur n’a heureusement pas le droit de t’interdire de nourrir ton imaginaire avec ses oeuvres.
Tu as également le droit de faire des stats sur le nombre d’apparition de Haddock dans Tintin. De faire des analyses de la colorimétrie, des apparitions de mots, etc. et c’est pas considéré comme une oeuvre dérivée et l’auteur ne peut l’interdire. Un modèle de génération d’images fait ça à l’échelle au dessus, en faisant des stats au niveau du coup de crayon. On peut arguer qu’il est d’un coté ou de l’autre de la ligne. C’est pas jouer au con: la loi est totalement floue là dessus.
Euh… quoi?
Historicité: les projets open source publient généralement tout l’historique de leur développement. Tu peux littéralement dire qui a écrit quelle ligne d’un projet. Dans le dernier auquel j’ai contribué je devais même signer cryptographiquement chaque commit. C’est le seul endroit à ma connaissance où ça marche comme ça! Aucun éditeur de boite privée ne te donnera un tel détail.
Les clauses “share alike” ça a été inventé par le mouvement open source. Les licences GPL à l’origine, que perso je préfère aux licences BSD et Apache qui permettent de fermer le produit plus tard. Un soft sous la GPL, si, il est largement sorti du système capitaliste car il ne peut plus devenir un “produit de propriété intellectuelle”. Il peut être utile à une boite capitaliste, principalement parce que ça diminue leurs coûts, mais l’écosystème open source existe en dehors ou en parallèle du capitalisme
Le fait que l’on possède collectivement les moyens de production logiciel, j’ai la faiblesse de penser que c’est pas mal communiste si. C’est pas anti-capitaliste en soi, c’est un modèle post-capitaliste, non-capitaliste, qui pour beaucoup de monde semble être l’état stable logique de n’importe quelle tech: ouverte, possédable par tout le monde.
Oui, parce que l’open source est un mouvement né de l’opposition à la propriété intellectuelle et qui a décidé de combattre cette dernière par la subversion. La plupart des libristes seraient heureux qu’on retire toute propriété intellectuelle à tous les programmes. Tu n’imagines pas à quel point l’informatique serait différente si on avait le droit de s’échanger des binaires propriétaires sans être accusés de piratage. À quel point on pourrait facilement rendre plein de systèmes plus compatibles et secure.
L’open-source est un pis-aller, un compromis auquel nous a forcé la propriété intellectuelle.
C’est quoi “les techs”?
Et sur le web, y a 30 ans de “recul sur les usages” sans qu’on ait remis à plat le copyright (qui a beaucoup plus d’influence à l’échelle mondiale que le droit d’auteur). La législation est allée dans le sens des boites qui avaient les moyens de violer la loi parce qu’in fine le législateur a été incapable de comprendre que streaming et download sont la même chose. Cette semi-liberté a été conquise en démontrant des usages qui ont demandé à ignorer la loi. C’est ça le problème. “Obéissez à la loi mais démontrez les usages que d’autres lois pourraient permettre” est une contradiction et c’est pourtant comme ça que ça a évolué.
Alors je suis d’accord que c’est nul, que la loi devrait comprendre et protéger les usages qui vont dans l’intérêt du plus grand nombre, mais ni en France, ni aux US ça ne marche comme ça. C’est de la défense des intérêts de ceux qui crient le plus fort, avec un fort bonus au conservatisme quand les choses sont trop compliquées.
Les nouveaux usages, on doit les démontrer en marge des lois. La génération d’image en est un bon exemple: si tout le monde prenait ton acceptation de “ne faisons surtout rien qui puisse être considéré un jour illégal”, personne ne prendrait aux sérieux la possibilité de génération d’images de qualité professionnelle. Le débat ne se poserait jamais et la techno n’aurait jamais émergé.
C’est un problème sérieux, et les deux seules positions semblent être “interdisons tout” et “ignorons les lois”. J’aimerais bien qu’on réinstalle un peu le dialogue entre ces deux positions extrémistes qui n’ont pas l’air de comprendre ce que l’autre fait.
Je pense qu’on est d’accord sur le fond et c’est l’essentiel :)
Quelques précisions cependant.
Sur les inspirations, en France c’est relativement clair : une oeuvre doit porter la marque de son auteur, bien sur il y a une part de subjectivité, mais bon faut bien conserver de l’humain quelque part… Globalement si beaucoup de gens confondent ta prod avec celle d’un autre il faut se poser des questions sinon RAS.
Sur les usages aux fins de recherches, analyses, études et autres : en France se sont des exceptions au droit d’auteur, donc c’est l’égal. Voilà, pas d’ambiguïté. Dans le copyright, je ne sais pas.
Sur l’open source. Déjà il existe 2 mouvements : le libre et l’open source. Tu as l’air de faire comme si c’était la même chose, mais c’est pas le cas du tout philosophiquement parlant. Sur l’historicité : le fonctionnement des forges comme git sont une solution technique, mais elles sont beaucoup plus difficile d’usage sur des oeuvres qui ne sont pas du code. De plus cette solution technique n’est pas se qui caractérise la philosophie open source, qui est plutôt l’idée qu’il faut le moins de barrières possible au partage de l’oeuvre. La CC0 est ainsi un bien meilleur exemple, c’est une licence non-libre (puisque pas de paternité, ni de clause share-alike), mais bien une licence open source. Or une oeuvre sous CC0 peut être reproduite sans citer l’auteur, puis peut être refermée (revendu sous licence proprio). = plus d’historicité, plus de sortie du capitalisme (moins en tout cas). Pourquoi l’open source est plus populaire ? Parce que c’est plus simple a gérer. Après est-ce que ce qui est plus simple est forcément meilleur, je ne sais pas.
Enfin les licences libres et ouvertes sont un pis aller dans le monde du copyright oui (un hack en fait). Mais pas en France, c’est une possibilité que permet le droit d’auteur et c’est hyper bien, car ça donne un accès facilité aux possibilités d’usages d’une oeuvres aux usagés. Cela rétablie ainsi un dialogue entre l’auteur et le receveureuse.
Les techs c’est les devs, les ingés, etc, tous celleux qui développent directement les nouvelles technologies.
On a 30 ans de recul sur le web oui. Et bien 30 ans c’est que dalle. Le code civil français a à peine 200 ans. Pour comparer l’Empire romain c’est environ 1200 ans et l’Égypte antique plusieurs millénaires. La on parle d’un sujet qui bouleverse complètement l’un des instinct grégaire de l’être humain : la propriété. Je crois qu’il faut se rendre compte à la fois du défi que ça pose a l’échelle de l’humanité alors que sur des sujets plus ‘simple’ (genre le mariage) on galère encore a faire évoluer les mentalités. A la fois il faut aussi se rendre compte de la vitesse et de la brutalité avec laquelle les technologies évoluent.
Tu parlais des possibilités d’un monde dans lequel les logiciels s’échangerai sans barrières. Et bien moi j’aimerai bien voir un monde ou on respecte les volontés des auteurs. Ou un auteur qui ne veut pas être diffuser en ligne ne l’est pas, par personne et ou ceux qui diffusent sous licence libre ou ouverte le sont massivement. Dans un tel monde, je pense que bien vite tous les auteurs libéreraient leurs oeuvres, car ils verraient par la pratique qu’ils n’y perdent rien et que tout le monde y gagne. Différentes stratégies j’imagine…
Tu justifies la fraude a des fins de recherches, c’est un peu douteux (au hasard tu penses quoi du clonage humain ?). Est-ce que c’est parce qu’on parle de PI qu’on peut violer les lois ? Est-ce que c’est moins grave qu’autre chose ? Je ne sais pas.
Tu parles de “possibilités de génération d’images de qualité professionnel”, c’est quoi la qualité professionnel ? Pour moi c’est un truc de capitalistes servant a rabaisser toute production artistique qui n’entre pas dans la case du “à la mode” ou de l’efficacité. Alors qu’une prod pro c’est une prod qui rapporte de l’argent et rien d’autre (dans le domaine artistique j’entends hein pas dans la fabrication de machine à laver). Pourquoi on veut une production artistique par IA qualité professionnel déjà ?
J’ai un peu lu en diagonal, désolé.
En fait, je me dis que ce n’est pas tant la question du droit d’auteur mais la rénumération des artistes vivants (Mort ça sert à rien d’avoir de l’argent). Plus globalement l’économie.
Par exemple le soustitrage automatique a été pour moi une révolution pour l’accès à l’information. En parallèle ça met au banc les soustitreurs et soustitreuses.
Cependant, personne ne seraient capable de soustitrer toutes les vidéos du web, et on ne serait pas capable de tous et toutes les rénumerer.
De la même manière que les maraichers ne sont pas rénumérés en cas de perte de leur production malgré leur travail. (sauf AMAP)…ou encore les actifs qui cotisent pour les retraités…ya plein de choses comme ça.
En dehors de l’IA, c’est la notion de travail = salaire qu’il faut détruire.
Il y a un vrai sujet sur le fait de décorréler la rémunération de la production, mais ça ne concerne pas que les auteurs.
Yep autant donner un revenu à tous et toute sans condition. Pour ma part j’experimente des alternatives comme la monnaie libre qui apporte une partie de la solution. Cependant j’arrive pas à résoudre la question de la taxe et service publique et ce n’est pas un revenu de base car ça ne garantie pas le logement, alimentation. C’est une dividende universelle. Neanmoins sa production est équitable et décentralisée.
La monnaie libre c’est super! Et c’est l’exemple même d’un truc qui permettrait de faciliter la sortie du capitalisme, c’est d’ailleurs pour cette raison qu’aucun tenant du solutionnisme technique ou des boites techs ne s’en saisie, car leur but c’est pas de réfléchir a une nouvelle société, mais de continuer comme avant en faisant tourner les rapports de force a leur avantage. La monnaie libre, ça rapporte pas de blé tu comprend, alors que l’open source ça oui!
exactement, elle est faite pour circuler, et non s’accumuler. Et perd de la valeur si elle reste sur ton compte membre. :)
Exactement.
Je suis d’avis que ce qui mets au ban les soutitraires, c’est moins l’outil automatique que l’étroitesse d’esprit de certain. Puisqu’on dispose d’une technologie qui peut fournir en grande quantité un travail de qualité moyenne à faible coût, on exclus définitivement de s’offrir parfois les services de qui peut fournir un travail de haute qualité, en petite quantité, pour un prix élevé. Sachant portant que le prix des soutitraires étaient déjà élevé auparavant.
Heu les soustitraires sont payés au lance-pierre d’après une de mes connaissances.
Effectivement les soustitres en IA sont moins comfortables à lire. Ya pas de ponctuation, ya des pavés gros comme ça…alors qu’il faudrait changé les mots pour que ce soit plus rapide, et facile à lire, ça c’est vrai.
Mais bon, moins je suis passé d’une période desertique avec 99,9 % de vidéo, radio/podcast non-soustitrées à celle de l’abondance 80% avec soustitrage dont 10% Soustitré.
À l’époque, on avait des groupes FB pour demander du soustitrage. Maintenant, ya plus trop besoin, si tu as un bon micro, l’IA fait le reste.
C’est comme ça qu’iels ont fait la transcription de leur émission Soluce posté dans !jeuxvideo@jlai.lu (avec relecture)
Pour moi, c’est une révolution.
Quand tu compares la quantité de soustitres produit automatiquement par rapport à celle que te produit un soutitraire sur le même temps, oui les soutitraires coûtent cher. Ça ne veut pas dire pour autant qu’ils peuvent bien vivre.
Je suis d’accord avec toi sur le fait que ça été une révolution. Même les entendants ont vu la différence ! Il n’empèche que avoir un dispositif pour faire du soutitrage en quantité n’obligait pas les entreprise à abandonner celui qui faisait du soutitrage de qualité : C’est un choix qu’elles ont fait. La technologie n’est qu’un prétexte pour ne pas l’assumer.
Oui, on est d’accord. Ya quelque chaines qui font ce soustitrage : jamy epicurieux, science etonnante et soluce.
Et ya aussi le doublage qui est menacé : https://www.cnetfrance.fr/news/cinema-comment-les-ia-sont-en-train-de-doubler-les-doubleurs-39956928.htm
Après, j’aime pas le doublage car souvent ça se traduit par la disparition des soustitres dans les animés et salle de cinéma.