Si vous vous êtes déjà amusé·e à fabriquer des images grâce à un modèle d’intelligence artificielle générative, vous avez peut-être sans le vouloir mobilisé une base de données liée à des images pédopornographiques. C’est en tout cas le résultat d’une étude de l’Observatoire d’Internet de Stanford, relayée par 404 Media. Publiée ce mercredi 20 décembre, elle met en garde contre LAION-5B, une base de données qui a servi à entraîner de nombreux modèles comme Stable Diffusion. Elle contiendrait près de 6 milliards d’images, dont des milliers d’images illégales. Parmi elles, au moins 3 226 seraient définies comme du contenu pédopornographique.
À voir aussi sur Konbini
À la base, LAION (pour Large-scale Artificial Intelligence Open Network) est une ONG qui crée des outils de machine learning en open source. LAION-5B est l’un de ses plus gros produits – et aussi le plus populaire. Sa base de données contient des liens d’images trouvées sur Internet, y compris sur les réseaux sociaux. Et sur X/Twitter comme sur Facebook, certains contenus relèvent de la pédopornographie, explique Marcus Rogers, doyen adjoint des Initiatives de Cybersécurité à Purdue University, à 404 Media. “Les entreprises ne veulent tout simplement pas savoir. Et même si elles voulaient savoir, en réalité elles ont littéralement perdu tout contrôle, avance-t-il.
Si bien que dès 2021, l’équipe de LAION émettait déjà des inquiétudes quant à la légalité de certains contenus utilisés pour nourrir cette base de données. Il a alors été tenté de la filtrer, sans trop de succès… Et LAION-5B a malgré tout été mis en ligne. Peut-être en espérant que si personne ne remarquait le grain de sable dans les rouages, il ne perturberait rien. Mais dès août 2022, des utilisateurs de la base de données se sont inquiétés à leur tour des contenus qui s’y trouvaient. Ce n’est que sept mois plus tard que ces remarques ont enfin été prises en considération.
LAION s’est justifié auprès de 404 Media, expliquant avoir “développé et publié ses propres filtres rigoureux pour détecter et supprimer les contenus illégaux des bases de données LAION avant de les publier.”
En attendant, “si vous avez déjà téléchargé cette base de données complète pour n’importe quelle raison, pour entraîner des modèles pour de la recherche, alors oui, vous possédez forcément des images pédopornographiques, à moins d’avoir pris des mesures exceptionnelles pour l’empêcher”, révèle David Thiel, l’auteur principal de l’étude de Stanford, à 404 Media. Résultat : ce mardi, LAION a temporairement suspendu ses bases de données LAION-5B et LAION-44M, “pour s’assurer qu’elles sont sans danger avant qu’on les republie.” C’est déjà ça.