Jay-Z a un centième problème : les deepfakes audio

Jay-Z en Hamlet des temps modernes, rappant la prose shakespearienne : vous l’auriez imaginé ? Non. Eh bien, lui non plus. Pourtant, ça donne ça :

Dans ce clip audio, le célèbre artiste américain semble reprendre aisément l’illustre tirade de Shakespeare “To be or not to be” mais, en réalité, ce n’est que le résultat d’une création par intelligence artificielle.

Depuis plusieurs mois, le fondateur de la chaîne YouTube Vocal Synthesis s’amuse à partager avec ses abonnés ses créations audio intégralement réalisées grâce à un programme d’intelligence artificielle développé par Google, Tacotron 2. Il reproduit ainsi les voix de célébrités pour leur faire interpréter des œuvres bien connues.

Les deepfakes au service de la désinformation

On appelle ce genre de reproduction des deepfakes audio. Un deepfake est “un faux, quelle que soit la nature du contenu – vidéo, photo, audio ou texte –, conçu grâce à l’intelligence artificielle”. Pour l’heure, ce sont surtout les truquages vidéo qui inquiètent. Ils ont par exemple déjà affecté plusieurs personnages de la scène politique américaine, entrant directement au service de la désinformation. Rappelez-vous de la vidéo truquée d’Obama qualifiant son cher successeur Trump “d’idiot”, devenue virale sur la Toile il y a quelques mois.

Aujourd’hui, comme le montre le compte Vocal Synthesis, ces deepfakes sont aussi utilisés pour trafiquer des pistes audio. Cette fois-ci, il n’est pas question de reproduire les expressions faciales de la personne, mais ses intonations.

Le résultat n’est certes pas encore parfait, mais il faut reconnaître que les créations sont particulièrement amusantes. Imaginez la reproduction de la voix de Bob Dylan reprenant “Baby One More Time” de Britney Spears ou de celle de George Bush pour interpréter “In Da Club” de 50 Cent. Le propriétaire de la chaîne en est même venu à mettre dans la bouche de The Notorious B.I.G. les paroles de l’un des plus célèbres clashs du rap américain, “Hit ‘Em Up” de 2pac, et il fallait oser une telle association.

Après s’être attaqué à la reproduction des voix de nombreuses autres célébrités, il s’est finalement tourné vers celle de Jay-Z, pour créer quatre vidéos sorties en avril dernier. Malheureusement, l’artiste américain ne semble pas avoir apprécié l’initiative. Estimant que les clips audio devaient être retirés de la plateforme, le rappeur a mis son équipe juridique sur le coup. Deux jours après leur publication sur YouTube, elles ont été supprimées en raison de sa réclamation pour atteinte aux droits d’auteur.

Cependant, si la violation de ceux-ci semble avoir été entendue de prime abord par la plateforme, YouTube est rapidement revenu sur sa décision en les remettant en ligne. L’un de ses porte-parole a confié à Pitchfork que la demande de retrait était alors “incomplète”, et que les vidéos ont donc été “réintégrées temporairement”.

Si, pour l’instant, l’affaire reste en suspens, il semblerait que Jay-Z ne puisse pas faire jouer ici l’argument d’une quelconque atteinte à ses droits d’auteur, dans la mesure où il ne s’agit pas de la copie de l’une de ses créations mais de sa voix.

La voix d’un artiste n’est pas une prestation

Aujourd’hui, il est régulièrement demandé aux plateformes de déterminer ce qui est juridiquement correct ou non dans des délais extrêmement courts. Ces appréciations si rapides les poussent évidemment à rendre des décisions parfois erronées, d’autant que les lois varient selon les pays et les cadres juridiques.

Source d’inspiration ou contrefaçon, humour ou atteinte aux droits d’auteur, cette nouvelle pratique soulève de nombreuses interrogations légales auxquelles le droit semble parfois avoir du mal à répondre.

Pour mieux comprendre les enjeux juridiques liés à ce processus, nous avons cherché des réponses auprès de la professeure Valérie-Laure Benabou, spécialisée en propriété intellectuelle, numérique et technologie avancée. Partant de l’exemple du clip audio de Jay-Z reprenant Hamlet, voici quelques explications :

“Ici, ce qui a été diffusé, c’est quelque chose qu’a créé Shakespeare et non pas Jay-Z, et qui est aujourd’hui tombé dans le domaine public. D’un point de vue du droit d’auteur, il n’y a pas de souci puisque l’œuvre ‘Hamlet’ n’est plus protégée. Si on avait mis dans la bouche de Jay-Z les paroles d’un autre artiste, il y aurait pu y avoir une atteinte aux droits d’auteur de la personne dont les paroles ont été réutilisées.

La voix d’un artiste peut être protégée en tant qu’un élément de sa personnalité, en la rattachant à celle-ci, mais la voix ne constitue pas une prestation d’un artiste interprète. Sa voix, c’est lui, sa prestation, c’est ce qu’il chante ou danse par exemple.”

Aucune intention de nuire

Au-delà de la question de la protection par le droit d’auteur, c’est la nature du contenu détourné qui doit être au centre des attentions. Comme nous le disions, le danger principal des deepfakes réside dans le détournement de la voix à des fins malveillantes.

“Évidemment, toute la question se pose dans le cas où le message véhiculé pose problème : s’il s’agit par exemple de fausses allégations, d’un appel à la haine raciale ou autre. Dans ces cas précis, on porte atteinte à l’image de la personne”, explique la professeure.

Dans l’une des vidéos litigieuses, la description mentionnait que le clip audio avait été “entièrement généré par ordinateur en utilisant un modèle de synthèse vocale formé sur les modèles vocaux de Jay-Z”. Son créateur a donc pris soin de rappeler que ce clip audio n’avait rien de réel, de sorte qu’aucune confusion ne puisse être faite.

L’intention de la personne à l’origine de la deepfake est donc évidemment à prendre en considération dans la mesure où il est à l’origine de la création et que l’IA n’est que l’outil utilisé pour la créer. C’est ainsi que le créateur de Vocal Synthesis s’est justifié auprès du blog Waxy :

“J’ai créé cette chaîne parce que je voulais montrer que les deepfakes ne sont pas exclusivement conçus à des fins malveillantes. Je pense que cette technologie cache actuellement un fort potentiel en termes d’amusement et de divertissement.”

Au-delà de l’intention humoristique, le créateur de Vocal Synthesis n’a en aucun cas créé ces vidéos à des fins commerciales, aucune d’entre elles n’étant monétisée. Ici, donc, les possibilités de recours pour Jay-Z semblent limitées, même s’il faut reconnaître que de tels trucages soulèvent aussi des questions éthiques et morales.

Pour autant, le réel danger de ce genre de manipulations réside dans les capacités de l’intelligence artificielle. Le cadre juridique régulant les créations par IA n’est pas près de s’arrêter d’évoluer, avec notamment l’apparition des logiciels d’apprentissage autonomes rattachés à l’intelligence artificielle et qui sont capables d’apprendre sans qu’un programme ou l’intervention de l’homme ne soient déterminants.

Le temps où l’ordinateur était au service de la création, comme le pinceau est au service du peintre ou la guitare au service du musicien, semble être révolu, au possible détriment des artistes.

Jay-Z a un centième problème : les deepfakes audio

Le rappeur souhaite faire retirer de YouTube des pistes reproduisant sa voix par intelligence artificielle.

Les deepfakes au service de la désinformation

La voix d’un artiste n’est pas une prestation

Aucune intention de nuire