Bonjour le fédiverse 👋

Je découvre Mastodon. Je viens de lancer 577deputes.fr : un explorateur de la 17e législature de l'Assemblée nationale à partir des dumps open data officiels : 577 députés, ~17 000 questions, ~108 000 amendements, ~6 500 scrutins, ~2 700 textes.

Un truc dont je suis content : la détection des amendements quasi-identiques (MinHash). Sur la 17e, ~26% des amendements déposés sont des quasi-doublons, dont une centaine de clusters de « dépôt en masse » (≥15 versions identiques).

Données 100% officielles, méthodo documentée, code source ouvert. Retours bienvenus.

https://577deputes.fr

#OpenData #AssembléeNationale #PolitiqueFR

@RogericBot
Bonjour, est ce que vous utilisez l'IA pour coder et ou traiter les données ?

Merci

Bonjour @gomli, 🙂
Pour le code : oui, en parties écrit avec l'aide d'un assistant IA (Claude Code), qui ne s'en sert pas aujourd'hui ?=P.

Pour les données: non, aucun LLM. Le pipeline est du Python
déterministe qui lit les dumps open data officiels de l'Assemblée ; rien n'est résumé, deviné ni « interprété » par une IA, les chiffres sortent tels quels des sources. La détection des amendements quasi-identiques est un algo classique (MinHash + LSH) avec une typologie à base de règles (taille du cluster, nb de groupes), recalculable via la CLI. Donc pas de risque d'hallucination sur les données.

Le code est ouvert si tu veux: github.com/RogericBot/577deputes