Désormais modèle de langage célèbre, ChatGPT a impressionné le monde entier en montrant ce que l’intelligence artificielle était capable de faire. Mais pour être capable de générer autant d’informations, le modèle a d’abord dû se former en lisant des écrits déjà existants, notamment sur Internet. Mais ce n’est pas parce que c’est sur Internet, que c’est forcément libre de droit et OpenAI, l’entreprise derrière ChatGPT, est quelque peu gêné par ce “détail”.
Publicité
Le 9 juillet dernier, la comédienne Sarah Silverman attaquait OpenAI en justice car elle estimait que ChatGPT avait repris des éléments contenus dans son livre, une œuvre protégée par le droit d’auteur (copyright).
Publicité
Comme l’explique Insider, désormais les regards sont tournés vers ces grands modèles de langage. OpenAI mais aussi Meta et Microsoft sont scrutés de près vis-à-vis de leur matériel sources. Ainsi la plupart ont décidé de ne plus indiquer leurs sources exactes, de peur de commettre de nouvelles infractions au droit d’auteur.
OpenAI serait allé plus loin avec ChatGPT comme semble l’indiquer un article académique publié par l’Université de Berkeley et mené par un groupe de recherches de ByteDance (TikTok). Ils ont notamment utilisé l’œuvre de J.K Rowling Harry Potter pour montrer qu’ils avaient raison. ChatGPT, OPT-1.3B de Meta, FLAN-T5 de Google ou DialoGPT de Microsoft, tous les modèles semblent avoir intégralement lu Harry Potter.
Publicité
Désormais, ChatGPT ne citerait plus exactement et exhaustivement les informations issues d’une œuvre protégée pour justement… se protéger. Lorsqu’on demande ainsi au modèle de langage d’extraire des citations entières, une protection s’activerait pour tronquer, modifier légèrement et faire en sorte que l’œuvre protégée ne soit pas copiée.
Mais dans les faits, les chercheurs ont aussi démontré que ChatGPT peut encore générer des extraits supposément protégés si on lui incite correctement. Il y a quelques limites encore à la magie à de l’IA.
Publicité