Data : une visualisation des mots les plus utilisés pour résumer des films sur IMDb

Publié le par Thibault Prévost,

Crédit: u/Gedanke

A voir aussi sur Konbini

(© u/Gedanke)

Publicité

IMDb, ou Internet Movie Database, est une bénédiction pour les cinéphiles. Loin des critiques épicées de Rotten Tomatoes ou de notre SensCritique local, la base de données se contente d’offrir à quiconque des informations factuelles et vérifiées sur un catalogue de films, acteurs et actrices, téléfilms et séries télé qui défie toute autre comparaison en ligne.

Publicité

Mais au-delà des cinéphiles, le concept d’une base de données intéresse également les fans de data visualisation et autres dompteurs d’algorithmes, toujours à la recherche de grands volumes d’informations à faire analyser à leurs formules. Rien que ces dernières semaines, la base IMDb nous a donc appris quelle est la meilleure stratégie pour survivre à Westeros (spoiler : soyez étranger au concept d’allégeance) ou encore quel est le film le plus influent de tous les temps (surprise, c’est Le Magicien d’Oz, version de 1930).

Pour ceux qui préfèrent les visualisations de données, l’utilisateur u/Gedanke a balancé sur Reddit, le 17 décembre, le résultat d’un boulot d’analyse pour le moins intéressant : identifier, dans toute la base IMDb, les mots-clés les plus utilisés par les membres de la communauté pour décrire les synopsis des 250 meilleurs films du classement. Les données, détaille u/Gedanke, sont récoltées via l’interface de programmation (API) d’IMDb.

Publicité

Alors, quel est le champ lexical d’un film à succès ? “Sang”, “meurtre”, “mort” et “violence” sortent immédiatement du nuage de mots, ce qui en dit long sur nos centres d’intérêts mais ne surprendra absolument personne. Les relations familiales sont également prépondérantes, particulièrement la relation mari-femme, père-fils, et l’amitié. Au rayon technique et narratif, les flash-back, les ralentis, les fuites, les trahisons, les poursuites, les sauvetages et les combats font partie de termes les plus utilisés. Flingues et nudité sont également présents pour compléter la liste des instincts primaires.

Enfin, comme l’ont souligné plusieurs membres de Reddit en commentaire, on trouve aussi quelques incongruités, comme la mention “titre du film énoncé par le personnage”, un TOC cinématographique aussi prisé qu’agaçant (la liste est infiniment longue...). Le tag “film culte” est aussi étrangement sur-représenté dans la liste des 250 meilleurs films – après tout, un monument du cinéma n’est pas forcément la même chose qu’un film culte. Élément de réponse de l’un des internautes : “les fans les plus obsessionnels vont noter plus de films sur IMDb que les amateurs classiques, ce qui a tendance à faire remonter ces films vers le haut du classement.” Le doute reste permis. N’hésitez pas à ouvrir l’image pour profiter de la visualisation dans toute sa splendeur.

Publicité