Pour le coup, la shitstorm sur #VLC qui ajoute de « l’IA » m’a l’air complètement hors sol et du gros emballement, et ça m’énerve un peu car j’ai l’impression que c’est encore du validisme derrière. 😬

Pour résumer, VLC va ajouter une fonction optionnelle pour des « sous-titrages » par IA pour les vidéos qui n’en ont pas.
L’auteur explique que c’est pas juste pour le plaisir de mettre de l’IA partout hein, mais un outil d’accessibilité optionnel pour tenter de rendre un tout petit peu accessibles les (trop nombreuses) vidéos qui n’ont pas de sous-titres. Tout en précisant qu’à l’évidence ce serait mieux d’avoir des vrais sous-titres professionnels faits par des humains (que VLC continuera d’afficher quand ils existent, évidemment).

Cf https://beige.party/@bedast/113799126497343123

Alors OK, c’est de « l’IA », mais ça me paraît être un des rares usages « justifiés » et utiles de l’IA, pour le coup, et je pense qu’on est ici dans une réaction épidermique et dépolitisée, parce qu’ici il y a à peu près aucun des nombreux inconvénients de « l’IA » qu’on voit habituellement.

Le seul « argument » que j’ai lu contre cette utilisation spécifique dans VLC, c’est l’impact environnemental, comme quoi l’IA ça « gaspillerait » des cycles CPU/GPU, et donc des ressources naturelles, de l’eau pour le refroidissement des serveurs et tout, etc. bref vous connaissez l’impact environnemental dramatique en général des data centers.
Sauf que là c’est justement pas le cas.

Quand c’est pour produire des résultats de recherche trompeurs et dangereux sur Google ou autre, oui c’est du gaspillage, parce que ça n’apporte absolument rien à personne (au contraire), et ça a un impact à grande échelle terrible parce que c’est imposé à des millions de gens (qui n’en veulent pas en plus) pour produire rien d’utile.

Mais sauf que dans le cas de VLC, d’une part l’impact total du truc sur l’environnement sera absolument négligeable, parce que seule une infime partie des gens qui utilisent VLC utiliseront cette fonctionnalité.

Mais en plus et surtout, pour le coup on parle d’une utilisation justifiée de l’IA, qui pourrait permettre à des gens de profiter de vidéos auxquelles sinon iels ne pourraient pas accéder ! C’est pas du « gaspillage », parce que ça produit quelque chose de vraiment utile, ça sert à des gens !

Je vous ferais remarquer que quand on joue à des jeux vidéos, ou même quand on regarde une vidéo, ça utilise des cycles CPU/GPU aussi en fait !
Probablement plus que la fonctionnalité de sous-titrage en fait, parce que pour rappel, rien que pour une vidéo basique en FHD, il faut décoder des vidéos compressées en 24+ images/seconde qui font chacune 1920*1080 = 2.07 millions de pixels hein. Avec trois composantes par pixel.
Je vous laisse calculer le nombre de cycles que ça fait tout ça.
Et les jeux j’en parle même pas parce que la consommation en énergie doit être encore pire.

Et pourtant on dit pas que ce serait du « gaspillage » tout ça, parce que ça nous procure un plaisir et qu’on considère que ce plaisir justifie cette utilisation et cette dépense de ressources. Sinon ce serait facile d’arrêter pour protéger la planète hein, mais personne le propose, bizarrement. On peut aussi aller vivre en forêt pour réduire notre impact environnemental.

Par contre, une fonctionnalité qui pourrait permettre aux sourd·e·s et aux malentendant·e·s de profiter elleux aussi des mêmes choses que nous, pour un coût en ressources dérisoire en pratique, ben non, surtout pas, là ça devient d’un coup du « gaspillage » hein, et hop c’est la levée de boucliers partout. 😬

Vraiment à un moment il faudrait prendre un peu de recul. 😬

bedast (@[email protected])

The enshittification of AI has lead to the choice of AI used by VLC to be groaned at. I even saw a post cross my feed of someone looking for a replacement for VLC. VLC is working on on-device realtime captioning. This has nothing to do with generating images or video using AI. This has nothing to do with LLMs. This is not generative AI. While it would be preferred to use human generated captions for better accuracy, this is not always possible. This means a lot of video media is inaccessible to those with hearing impairment. What VLC is doing is something that will contribute to accessibility in a big way. AI transcription is still not perfect. It has its problems. But this is one of those things that we should be hoping to advance. I'm not looking to replace humans in creating captions. I think we're very far from ever being able to do this correctly without humans. But as I said, there's a ton of video content that simply do not have captions available, human generated or not. So long as they're not trying to manipulate the transcription using GenAI means, this is the wrong one to demonize. #AI #Transcription #VLC #HearingImpaired #Deaf #Accessibility

beige.party

@jor @John_Livingston Alors si, c’est pas mal gourmand. Bien plus que de décoder. Autant que d’encoder.

Maintenant ça se fait très bien en local, donc dans le respect de la vie privée, et c’est fonctionnel. Et l’utilité pour certain·es est incontestable.

Être contre par simple posture m’agace aussi. L’IA existe. Son utilisation existe. Son utilité existe. Il faut "simplement" la politiser.

@raph @John_Livingston OK, je savais pas pour la consommation. Malgré tout je pense que ça reste probablement plus faible que la plupart des jeux non ?

D’autant qu’il y a d’autres facteurs qui peuvent mitiger, comme le fait que, dans la plupart des vidéos, ça parle pas tout le temps, donc il suffit d’un filtre audio basique pour détecter la voix, et en pratique l’IA de transcription sera active qu’une fraction du temps…

@jor @raph

Ce que je constate sur Peertube, quand j'active le sous titrage automatique (avec whisper si ma mémoire est bonne), ça consomme environ autant de CPU que l'encodage vidéo (je précise qu'il n'y a pas d'accélération par GPU). En tout cas, c'est le même ordre de grandeur.

Mais comme tu le souligne, c'est pire pour 1h de jeu sur une console ou PC gaming...

@jor @raph

Bon, ça ignore la phase d'apprentissage. Mais je pense que celle-ci, contrairement aux IA génératives, peut être considérée comme terminée pour de la reconnaissance vocale. Il n'y a pas besoin de refaire en continu cet apprentissage.

Autre test: en ce moment je teste un clavier Android qui utilise un de ces modèles pour la saisie vocale. Bah étonnamment, ça ne tue pas ma batterie. Ce qui est rassurant.

@John_Livingston lequel du coup pour le clavier ?

@Gilou
https://keyboard.futo.org/

Il est super agréable, le correcteur marche bien, et la reconnaissance vocale est ok.

Je découvre aussi le projet futo qui a l'air pas mal.
https://futo.org/about/what-is-futo/

FUTO Keyboard

FUTO Keyboard is a modern, privacy-focused keyboard that runs fully offline. Enjoy swipe typing, autocorrect, predictive text, and more—no internet connection required.

@Gilou
J'ai juste dû bidouiller pour avoir accès plus facilement au point médian.
@John_Livingston ah je crois que tu en as déjà parlé en effet.. Mais c'est libre, y compris pour les données d'entraînement ?
EDIT : oui, open dataset il semble
@Gilou
Ce n'est pas une licence libre classique, c'est une licence qui interdit l'usage commercial.
Pour la reconnaissance vocale, c'est Whisper, donc bon....
@John_Livingston ah. Bon, vé regarder quand même...
@Gilou
Enfin je crois que c'est Whisper, j'ai un doute tout d'un coup
@John_Livingston @jor @raph Et d'ailleurs, ce système de sous-titrage automatique de VLC passe également par Whisper.
C'est quand même l'apprentissage de ce genre de modèles de langage qui est couteux en terme de calcul, et donc d'énergie. L'exécution de ces modèles une fois entrainés n'est pas couteux. Le tout, c'est de ne pas réentraîner tous les 6 mois un modèle 10 fois plus gros que le précédent, comme le fait OpenAI depuis un moment (au passage, Whisper, c'est d'eux).