Analyse de la notation des films sur AlloCiné

Pour cette analyse, nous avons « web scrapé » les données à partir du célèbre site AlloCiné.fr. Si vous le désirez, le script de scraping est sur sur GitHub. Le jeu de données est également téléchargeable sous différentes formes :

  • Le fichier allocine_dataset.zip (4 Mo) vous donne accès aux données brutes ainsi qu’aux données nettoyées (contient 2 fichiers .csv)
  • Le fichier allocine_rel-dataset.zip (938 Ko) vous donne accès aux données nettoyées et séparées en plusieurs fichiers .csv (un par colonne contenant des arrays : actors_rating, directors_rating, genre_rating, movie_rating et nationality_rating)

Pour plus de détails, je vous envoie une nouvelle fois vers le repo GitHub. Pour notre part, les données que nous allons utiliser aujourd’hui se présentent comme ceci :


Analyse Génerale des Notes

Distributions des Notes


Les deux distributions sont assez similaires et tendent à suivre une loi normale. On note tout de même que la distribution des notes des utilisateurs d’Allociné est décalée à droite de la médiane (ceci est confirmé par un coefficient de dissymétrie négatif) et elle est relativement aplatie avec des queues de distribution moins importantes que la loi normale (le kurtosis non normalisé est inférieur à 3).

Celle des notes de la presse semble beaucoup plus symétrique (le coefficient de dissymétrie est positif et proche de 0, mais non significatif. On ne peut donc pas confirmer notre ressenti visuel) et ses queues de distribution sont plus épaisses que la normale aux extrémités (le kurtosis non normalisé est supérieur à 3).

Les deux distributions sont très proches pour les notes les plus basses (la partie à gauche de la médiane). Par contre, elles divergent assez fortement sur les notes les plus élevées. Les utilisateurs semblent être beaucoup plus durs dans leurs notations, car un très faible nombre de films ont reçu une note supérieure à 4.5 étoiles.

Quartile Skew Kurtosis
Note Total Moy Std Min 25% 50% 75% Max Stat Test Stat Test
Utilisateurs 10424 3.12 0.63 0.9 2.7 3.2 3.6 4.7 -0.40 True 2.88 True
Presse 10424 3.21 0.75 1.0 2.7 3.2 3.7 5.0 0.007 False 3.13 True

Corrélation des différentes notations


La corrélation entre les notes de la presse et celles des utilisateurs d’AlloCiné est positive, mais plutôt moyenne (le coefficient de corrélation de pearson est de 0.5).

Les films qui ont obtenu 5 étoiles par la presse

Nombre de votes et année de sortie

D’une part, les films qui ont obtenu 5 étoiles par la presse sont assez anciens: 60 % d’entre eux sont sortis avant le lancement de AlloCiné.fr en 1997. D’autre part, ils ont dans leur grande majorité enregistré un petit nombre de votes : 75 % des films ont été notés par au maximum deux professionnels de la presse. Ces deux éléments mis bout à bout expliquent cette forte présence de note maximale dans cette distribution.

De plus, en règle générale les notes de la presse sont publiées à la sortie du film et ne bougent plus ensuite. Les notes des utilisateurs d’AlloCiné sont pour leur part en constante évolution. Ainsi des biais de notations peuvent apparaitre : la nostalgie, film ayant mal vieilli, etc.

Comparaison avec les notes des utilisateurs


À la manière des quartiles, en divisant nos données en trois intervalles de même taille, on peut déterminer différents seuils nous permettant de classer les films en trois catégories :

  1. Les plus mauvais films sont ceux qui ont moins de 2.9 étoiles.
  2. Les films moyens ont reçu une note comprise entre 2.9 et 3.4 étoiles
  3. Les meilleurs films ont eu une note supérieure à 3.4 étoiles

En se référant à cette nomenclature, on peut s’apercevoir que 88.73 % des films plébiscités par la presse font partie des films les mieux notés par les utilisateurs, 10.91 % sont jugés comme moyen et enfin 0.36 % se retrouvent dans le tiers des films les moins appréciés par les utilisateurs. On peut donc considérer que sur notre échantillon les avis de la presse et des utilisateurs ne divergent pas trop.

Comparaison Générale des Notations


Pour un peu plus de 52.5 % des films, la note de la presse a été supérieure à celle des utilisateurs. Légèrement plus de 5.5 % ont reçu des notes identiques. Enfin, un peu moins de 42 % des films sont mieux notés par les utilisateurs que par la presse. Cela confirme donc notre commentaire fait un peu plus tôt sur la plus forte sévérité des utilisateurs d’AlloCiné dans leurs notations.

Quartile
Diff. Note* % Moy Std Min 25% 50% 75% Max
Utilisateur > Presse 41.73 0.56 0.42 0.1 0.2 0.5 0.8 2.6
Utilisateur < Presse 52.64 0.61 0.42 0.1 0.3 0.5 0.9 2.9
Total 100 % 0.55 0.43 0.0 0.2 0.5 0.8 2.9
* Valeur absolue de la difference entre les notes données par la presse et par les utilisateurs.

En moyenne l’écart entre les notes de la presse et celle des utilisateurs est de 0.5 étoile. Plus de 75 % des films ont des notes avec moins d’un point de différence. Enfin, il est plutôt rare qu’un film soit adoré par les utilisateurs, mais détesté par la presse et inversement.

Notes # de Votes
# Titre Util. Presse Diff. Util. Presse
1 Les Sept Samouraïs 1.7 4.6 2.9 92578 14
2 L’Enfant 1.6 4.3 2.7 69943 32
3 Gazelle 3.6 1.0 2.6 35 2
4 Retour vers le futur II 4.2 1.6 2.6 40487 5
5 Glee ! On Tour : Le Film 3D 3.8 1.2 2.6 299 10

En s’intéressant spécifiquement aux films ayant les écarts de notations les plus élevés, on constate que Les Sept Samouraïs et L’Enfant ont en commun d’avoir été très bien notés par la presse, mais tous les deux ont reçu une note très faible de la part des utilisateurs d’AlloCiné.

# Titre # de Votes des Utilisateurs
1 Les 4 Fantastiques 200 340
2 Camping 190 387
3 Tanguy 171 669
13 Les Sept Samouraïs 92 578
20 L’Enfant 69 943

À cela vient s’ajouter le fait que ces deux films ont reçu un nombre impressionnant de votes qui les font dépasser très largement la moyenne de 2582 votes. Ainsi, ils font partie des 20 films avec le plus grand nombre de votes d’utilisateurs (ils se classent respectivement 13e et 20e).

Certains commentaires d’utilisateurs sur les pages AlloCiné dédiées à ces films ont mis en avant le fait qu’il y ait eu un bogue ou un « hack », mais le site semble pour sa part affirmer que tout est normal. Il nous faudrait des données supplémentaires pour pouvoir avoir un avis tranché sur la question, mais les doutes sont permis.