Mastodawn

J'ai une idée de projet open source pour résoudre un problème que j'ai au quotidien et qui est vraiment courant : la gestion des documents administratifs personnels !

Je pense que je vais faire un petit blog pour le projet ! Un compte Fediverse associé ?

Avec une roadmap assez claire, l'idée visée est d'avoir un objet (pas juste un logiciel !) pas compliqué d'utilisation et grand public

J'ai hâte de commencer à vous parler de ça 👀
Si vous voulez des news du projet n'hésitez pas à me le dire 😁

Show thread

Drulac 🤔 | Zad partout Jan 9

(Et évidemment le but n'est pas de générer plus de déchets électroniques à base de raspberry pi, mais au contraire de recycler des déchets électroniques 😎)

Show thread

Drulac 🤔 | Zad partout Jan 10

c'est le moment des vrais choix techniques : c'est quoi le nom du projet 🤔 ?

Show thread

Drulac 🤔 | Zad partout Feb 28

J'ai la base de la partie logicielle fonctionnelle 😁

C'est fait pour scanner et ranger rapidement les documents, sans remplir les métadonnées .

Une autre page va lister les documents qui n'ont pas encore leur métadonnées (interlocuteur, date, etc....) de renseignées.

1/x

Show thread

Drulac 🤔 | Zad partout Feb 28

Pour l'aspect technique, on est sur une page pure HTML/CSS, sans JS du tout, même pour les actions sur les pages du document !

Ça fait du coup une partie interface très légère, potentiellement facilement transformable en API REST si volonté future de faire un client natif 😉

en backend c'est du Typescript/nodejs avec le framework Adonis V7, une base de donnée SQLite et les pages stockées sous forme de JPEG sur le disque.

Show thread

Drulac 🤔 | Zad partout Feb 28

Combiné avec un scanner recto-verso avec chargeur automatique de documents, c'est incroyable !

J'ai numérisé 28 documents (~40 pages) en 10 minutes !

Les documents de plusieurs pages recto-verso c'est un plaisir de faire un clic et d'avoir les 10 pages scannées sans rien faire d'autres 😎

Show thread

Drulac 🤔 | Zad partout Feb 28

Depuis tout à l'heure :
- 154 documents numérisés
- pile 400 pages
- 304 Mo

Pas mal en 2h30 😎

Show thread

Drulac 🤔 | Zad partout Mar 15

Au bout d'environ un total de 7h de numérisation, je suis arrivé à bout de tous mes documents !

- 413 documents numérisés
- 1105 pages 😱
- 996 Mo

Maintenant que les documents sont physiquement rangés, je vais pouvoir avancer sur l'interface pour faciliter l'ajout de métadonnées et la recherche de documents 😁 !

Faudrait trouver un nom pour ce projet 🤔

Show thread

Drulac 🤔 | Zad partout Mar 15

Et j'ai vu un peu large niveau trieurs, je n'ai rempli que le A et le B 😂

Show thread

Drulac 🤔 | Zad partout Mar 19

L'ensemble de mes documents sont passés à la reconnaissance automatique de documents !

avec Tesseract, en local, suis pas fou, c'est des documents perso/administratifs

Certains résultats sont un peu bruités mais ce n'est pas grave ^^

Ça ne prends que 5,3Mo de stockage (en comparaison des 996Mo de la version image)

Prochaine étape, un algorithme qui suggère des métadonnées (expéditeur, date, ...) à partir du texte

Toujours pas de nom de projet par contre 😭

Show thread

Quenti ✨

⏚Mar 19

@Drulac je veux suivre ça !

Show thread

Drulac 🤔 | Zad partout Mar 19

@Quenti je me questionne s'il est pertinent de faire un compte Fediverse dédié au projet

Show thread

JBrickelt963 ✊(φ)🚩Jan 11

@Drulac c'est quoi exactement le but de ce futur gestionnaires ? C'est plutôt classification par des étiquettes, avec de l'OCR ?

Je sais que Paperwork permet de faire quelques chose de proches mais sans convertir le titre originel du fichier.

Show thread

Drulac 🤔 | Zad partout Jan 11

@JBrickelt963 paperwork est vraiment abouti ! Par contre il manque une fonction pour ordonner physiquement les documents

Show thread

Fred Feb 28

@Drulac "pas compliqué et grand public" sans ce prérequis, t'avais paperless. Depuis que j'ai découvert ça, je numérisé tous mes documents et je suis super organisé 😁 (mais c'est vrai que c'est pas super grand public...).
Tu vas rendre disponible ton outil?

Show thread

Drulac 🤔 | Zad partout Feb 28

@fredds Oui ça me semble impératif que ça soit utilisable par des non technophiles. Parce que développer une dette technique pour diminuer une dette administratif, bof bof

Oui ça sera disponible, et open source 😁 !

Show thread

Fred Feb 28

@Drulac trop bien! Merci 😉
Parce que oui, justement, paperless, pour, par exemple, mes parents, ça semble un peu compliqué...

Show thread

ubuntulorrain Mar 1

@Drulac Il fonctionnera sur ubuntu?

Show thread

Drulac 🤔 | Zad partout Mar 1

@ubuntulorrain Oui !

Show thread

JBrickelt963 ✊(φ)🚩Mar 15

@Drulac il y a déjà certains projets comne Paperwork qui permet de le faire.

Mais chez eux tu dois importer le document dans le logiciel et tu perds donc le nom du fichier. Par contre ça fonctionne très bien sûr les caractères d'imprimerie ^^ #OCR #Tesseract

gImageReader reste encore la meilleure option mais c'est manuel sur chaque image. Et donc on perds la recherche textuel comme sur un gestionnaire de fichiers.

Show thread

Drulac 🤔 | Zad partout Mar 15

@JBrickelt963 J'ai pu tester paperwork en partie (ne fonctionne pas bien sur ma machine), il manque la fonction principale de mon projet : gérer le rangement des documents papiers 😉

Oui je pense utiliser Tesseract pour de l'OCR pour permettre une recherche dans le contenu, et éventuellement l'extraction assistée de métadonnées

Show thread

JBrickelt963 ✊(φ)🚩Mar 15

@Drulac effectivement il n’y a pas de rangement possible en dehors des étiquettes et mois ce que je m’explique pas c’est qu’on perds le nom du fichiers qui peut être précieux.

Show thread

KillianKemps Mar 19

@Drulac J'avais aussi testé Paperwork sans succès. Très curieux de voir l'avancement de ton projet !

J'ai en plus l'envie de pouvoir scanner des tickets de caisse et pouvoir rapidement calculer les dépenses de mes courses en différentes catégories de budgets

Show thread

Drulac 🤔 | Zad partout Mar 19

@KillianKemps c'est une fonction à laquelle j'ai pensé, mais c'est pas pour tout de suite 😁

Des idées de nom pour ce projet 👀 ?

Show thread

KillianKemps Mar 20

@Drulac La question la plus difficile à répondre, trouver un nom à un projet 😃
Tu peux peut-être faire un brainstorming avec des mots-clés et décider si tu veux que le nom soit anglophone ou pas ?

On vient de me montrer Papra https://github.com/papra-hq/papra qui a l'air simple d'utilisation et plutôt complet. Tu l'avais déjà essayé aussi ?

GitHub - papra-hq/papra: The minimalistic document archiving platform.

The minimalistic document archiving platform. Contribute to papra-hq/papra development by creating an account on GitHub.

GitHub

Show thread

Drulac 🤔 | Zad partout Mar 20

@KillianKemps On m'as évoqué plusieurs réponses ce matin, dont Intercalaire, qui me plait bien 😁

Papra rassemble la plupart des fonctions qui m'intéresse, sauf la plus centrale : gérer le rangement des documents papiers 😉

Il y a d'autres dissensions techniques : interface inutilisable avec le JS désactivé par exemple

Je souhaite un projet low-tech 😉