Publié le: 21/08/2024 @ 16:49:22: Par Nic007 Dans "Programmation"
Apparemment, entraîner l’IA est impossible sans violer le droit d’auteur . C'est du moins l'idée qui peut se former après les « scandales » continus dans le monde de l'intelligence artificielle générative . La dernière en date vient de la plainte déposée hier par Andrea Bartz , Charles Graeber et Kirk Wallace Johnson contre Anthropic, qui aurait utilisé leurs livres piratés pour former son modèle d'IA Claude, l'une des meilleures alternatives d'OpenAI au GPT . Les plaintes d' auteurs ou de maisons d'édition contre les entreprises qui développent des modèles d'IA sont désormais monnaie courante, mais ces dernières révèlent une faiblesse intrinsèque de cette technologie : la soif de données et l'utilisation aveugle du Web pour les obtenir. Tout part d'une base de données de livres piratés, Books3 , qui a fait l'objet l'année dernière d'un procès de plusieurs écrivains tels que Margaret Atwood , Michael Pollan et Zadie Smith , qui ont dénoncé l'utilisation de leurs livres pour former des modèles d'intelligence artificielle. La plateforme qui hébergeait l’ensemble de données, Bibiliotik, a fermé ses portes, mais Books3 a continué à circuler. Il y a à peine un mois , plusieurs créateurs YouTube se plaignaient de l'utilisation de leurs livres pour entraîner l'IA. Comment les vidéos ont-elles été utilisées ? Grâce à des transcriptions contenues dans un ensemble de données appelé The Pile , disponible gratuitement sur Internet, et qui contient par hasard la base de données Books3. Les sociétés impliquées, dont Anthropic et NVIDIA, se sont justifiées en affirmant qu'elles ne collectaient pas les données, mais utilisaient celles collectées par d'autres. Néanmoins, les données violent le droit d’auteur et ils les utilisent pour entraîner leur vorace IA, exploitée pour gagner des milliards de dollars.
Eleuther AI , l'organisation à but non lucratif derrière The Pile, Meta et Microsoft, a déjà été poursuivie l'année dernière par plusieurs auteurs pour violation du droit d'auteur, tout comme OpenAI. Venons-en à la plainte d'aujourd'hui . Trois auteurs dénonçaient hier Anthropic, qui, rappelons-le, se vante de ne pas entraîner ses modèles sur des données publiques et de promouvoir une IA « sûre » (et a bénéficié d'un investissement de 4 milliards de dollars d'Amazon). Il s'agit d' Andrea Bartz , l'auteur de We Were Never Here, de Charles Graeber , qui a écrit The Good Nurse, et de Kirk Wallace Johnson, l'auteur de The Feather Thief. Les auteurs admettent que Books3 n'est plus présent dans la version officielle de The Pile, mais est présent dans les versions qui circulent encore sur Internet, et affirment qu'il est évident qu'Anthropic a « téléchargé et reproduit des copies de The Pile et Books3, sachant que ces ensembles de données constituaient un trésor de contenus protégés par le droit d'auteur provenant de sites Web pirates comme Bibiliotik », indique le procès. Les auteurs souhaitent que le tribunal autorise le recours collectif et exige qu'Anthropic paie les dommages-intérêts proposés et empêche l'entreprise d'utiliser du matériel protégé par le droit d'auteur à l'avenir. Rappelons que Books3 contient des livres de milliers d'auteurs, dont Stephen King, pour ne citer qu'un nom célèbre. Et on imagine les perspectives qu’il pourrait ouvrir s’il était accepté.
Une IA éthique est-elle possible ? Anthropic est censée être une entreprise éthique, mais il y a trop d’incitations derrière cette industrie. Les modèles d’IA doivent être continuellement améliorés, et pour les améliorer, ils doivent avaler de plus en plus de données. Il existe également des données créées artificiellement, mais elles ne sont manifestement pas assez bonnes ni en quantité suffisante. Et puis il y a la question de l’argent, beaucoup d’argent : les entreprises veulent obtenir un retour rapide sur leurs investissements et maximiser leurs profits. Les entreprises ne sont pas en mesure de résoudre seules ce problème et il est donc de la responsabilité des gouvernements de fixer des limites. Selon certains experts, la solution pourrait être une combinaison d’ incitations positives , telles que des allègements fiscaux pour les entreprises démontrant qu’elles respectent les normes éthiques, et d’incitations négatives, telles que des amendes pour mauvais comportement.
Eleuther AI , l'organisation à but non lucratif derrière The Pile, Meta et Microsoft, a déjà été poursuivie l'année dernière par plusieurs auteurs pour violation du droit d'auteur, tout comme OpenAI. Venons-en à la plainte d'aujourd'hui . Trois auteurs dénonçaient hier Anthropic, qui, rappelons-le, se vante de ne pas entraîner ses modèles sur des données publiques et de promouvoir une IA « sûre » (et a bénéficié d'un investissement de 4 milliards de dollars d'Amazon). Il s'agit d' Andrea Bartz , l'auteur de We Were Never Here, de Charles Graeber , qui a écrit The Good Nurse, et de Kirk Wallace Johnson, l'auteur de The Feather Thief. Les auteurs admettent que Books3 n'est plus présent dans la version officielle de The Pile, mais est présent dans les versions qui circulent encore sur Internet, et affirment qu'il est évident qu'Anthropic a « téléchargé et reproduit des copies de The Pile et Books3, sachant que ces ensembles de données constituaient un trésor de contenus protégés par le droit d'auteur provenant de sites Web pirates comme Bibiliotik », indique le procès. Les auteurs souhaitent que le tribunal autorise le recours collectif et exige qu'Anthropic paie les dommages-intérêts proposés et empêche l'entreprise d'utiliser du matériel protégé par le droit d'auteur à l'avenir. Rappelons que Books3 contient des livres de milliers d'auteurs, dont Stephen King, pour ne citer qu'un nom célèbre. Et on imagine les perspectives qu’il pourrait ouvrir s’il était accepté.
Une IA éthique est-elle possible ? Anthropic est censée être une entreprise éthique, mais il y a trop d’incitations derrière cette industrie. Les modèles d’IA doivent être continuellement améliorés, et pour les améliorer, ils doivent avaler de plus en plus de données. Il existe également des données créées artificiellement, mais elles ne sont manifestement pas assez bonnes ni en quantité suffisante. Et puis il y a la question de l’argent, beaucoup d’argent : les entreprises veulent obtenir un retour rapide sur leurs investissements et maximiser leurs profits. Les entreprises ne sont pas en mesure de résoudre seules ce problème et il est donc de la responsabilité des gouvernements de fixer des limites. Selon certains experts, la solution pourrait être une combinaison d’ incitations positives , telles que des allègements fiscaux pour les entreprises démontrant qu’elles respectent les normes éthiques, et d’incitations négatives, telles que des amendes pour mauvais comportement.
Envoyer une nouvelle à un ami