Suite à une discussion ici en fin de semaine, j'ai tenté de remettre en marche l'application d'analyse d'audience YouTube que j'avais développée il y a 5 ou 6 ans maintenant.

C'est donc parti pour une analyse de 2 chaînes :
- Clément Viktorovitch
- @JLMelenchon

Je ne rentrerais pas dans le détail du fonctionnement de l'application, ni des nombreux biais que les résultats présentent, mais vous pouvez me poser les questions que vous souhaitez.

🧵 👇

#Dataviz #Youtube #Politique

On commence donc par la chaîne de #ClémentViktorovitch avec ce premier graphique qui s’interprète comme ceci :

"Sur un échantillon de 500 commentateurs des dernières vidéos, abonnés à la chaîne, 67% sont aussi abonnés à Blast, 51% à Médiapart ...".

Les 45 chaînes avec les plus haut pourcentages d'abonnement sont retenues sur le graphique.

La chaîne de JLM apparaît avec 28%.

Pour rappel C.V. possède à l'heure actuelle un peu plus de 500K abonnés sur YouTube.

🧵 👇

Ces mêmes données peuvent être visualisées de façon un différentes. On laisse de coté l'affichage en spirale pour afficher par "nuages".

Petite précision, la taille des logos des chaînes reflète les % d'abonnements.

Cette fois il y a un peu plus de chaînes représentées (je n'ai plus le chiffre en tête, mais probablement de l'ordre de 60 ?).
Les logos sont comme des particules qui s'attirent ou se repoussent. Elles vont se regrouper en fonction des profils "similaires".

Ce nouveau graphique s'interprète ainsi :
"La abonnés de C.V. qui sont abonnés à J.L.M. sont souvent aussi abonnés à Le Média" (car ils sont géographiquement proches sur l'image).
🧵 👇

On peut constater sur l'image précédente que la plupart des chaînes sont rassemblées dans un sorte de patatoïde, ce qui veut dire qu'il n'y a pas plusieurs profils d'abonnées bien distincts, mais plus une sorte de gradient avec pour simplifier grossièrement :
les "grosses chaînes historiques" (JDG, Cyprien...) en haut, puis les chaînes de vulgarisation scientifiques, les médias au centre, et les politiques (plutôt LFI) en bas.

🧵 👇

On peut aussi de la même manière visualiser "le profil" des personnes qui ont fait des commentaires sur les dernières vidéos de C.V. mais qui cette fois ne sont pas abonnées à sa chaîne.

On voit cette fois qu'il n'y a pas un gros patatoïde compact, mais un grand groupe qui semble décomposé en deux sous groupes : les chaînes historiques + vulgarisation d'un coté et LFI et médias dans une "presqu'île" reliée entre eux par "GluPatate".

On a aussi un petit groupe qui se détache en bas, avec 😬 Tibo Inshape, Idriss Aberkane, le Huffington post ... (a noter, certains logos dans le cache de mon application datent de mes anciennes analyses).

🧵 👇

Le problème de ces pourcentages, c'est que les "grosses chaînes" vont se retrouver partout sans apporter grand chose à l'interprétation des résultats.

C'est pourquoi j'ai mis en place une autre mesure basée sur l'indice de Jaccard:
https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard
Qui est la taille de l'intersection divisée par la taille de l'union de 2 ensembles.
Ici je vais prendre un exemple pour expliquer :
On a vu que 51% de l'échantillon sont abonnés à Médiapart et que le nombre total d'abonnés de C.V. est de 502K.
On extrapole donc : 502K*51% = 256K abonnés commun à C.V. et Médiapart.

🧵👇

Indice et distance de Jaccard — Wikipédia

Médiapart possède 1.1M d'abonnés.
Donc les 2 chaînes totalisent :
1.1M + 502K - 256K (on enlève les abonnés communs pour qu'ils ne se retrouvent pas comptés 2 fois).
= 1.346M
L'indice de Jaccard sera donc 256K / 1.346M = 0.19

Normalisé (entre 0 et 100) sur le graphique, on voit que Médiapart à un indice de 19 (donc je ne me suis pas planté dans mon explication 😅).

Ce nouveau graphique permet de mieux voir les chaînes avec lesquelles C.V. a le plus "d'atomes crochus".
Radio Nova en tête, suivi de la chaîne Replay de C.V., puis Off Investigation ...

On peut constater que cette fois, la chaîne de JLM n’apparaît pas dans le top 45.

Enfin, pour finir avec la chaîne de C.V. Ces mêmes données (Jaccard) mais affichés en "nuages" cette fois.

On retrouve notre patatoïde, mais on a un peu plus l'impression d'y voir 2 sous groupes avec prépondérance des chaînes de vulgarisation/esprit critique en haut et politiques en bas.

Enfin l'application fourni aussi des statistiques plus générales sur l'échantillon. Je vous met le résultat pour information, mais je ne rentre pas trop dans le détail. Ce que l'on peut retenir de ces stats, c'est que les personnes qui commentent sont de "vieux" utilisateurs de Youtube (autour de 154 mois en moyenne).

Chaîne de JLM à suivre dans un autre 🧵