J'ai une idée de projet open source pour résoudre un problème que j'ai au quotidien et qui est vraiment courant : la gestion des documents administratifs personnels !

Je pense que je vais faire un petit blog pour le projet ! Un compte Fediverse associé ?

Avec une roadmap assez claire, l'idée visée est d'avoir un objet (pas juste un logiciel !) pas compliqué d'utilisation et grand public

J'ai hâte de commencer à vous parler de ça 👀
Si vous voulez des news du projet n'hésitez pas à me le dire 😁

(Et évidemment le but n'est pas de générer plus de déchets électroniques à base de raspberry pi, mais au contraire de recycler des déchets électroniques 😎)
c'est le moment des vrais choix techniques : c'est quoi le nom du projet 🤔 ?

J'ai la base de la partie logicielle fonctionnelle 😁

C'est fait pour scanner et ranger rapidement les documents, sans remplir les métadonnées .

Une autre page va lister les documents qui n'ont pas encore leur métadonnées (interlocuteur, date, etc....) de renseignées.

1/x

Pour l'aspect technique, on est sur une page pure HTML/CSS, sans JS du tout, même pour les actions sur les pages du document !

Ça fait du coup une partie interface très légère, potentiellement facilement transformable en API REST si volonté future de faire un client natif 😉

en backend c'est du Typescript/nodejs avec le framework Adonis V7, une base de donnée SQLite et les pages stockées sous forme de JPEG sur le disque.

Combiné avec un scanner recto-verso avec chargeur automatique de documents, c'est incroyable !

J'ai numérisé 28 documents (~40 pages) en 10 minutes !

Les documents de plusieurs pages recto-verso c'est un plaisir de faire un clic et d'avoir les 10 pages scannées sans rien faire d'autres 😎

Depuis tout à l'heure :
- 154 documents numérisés
- pile 400 pages
- 304 Mo

Pas mal en 2h30 😎

Au bout d'environ un total de 7h de numérisation, je suis arrivé à bout de tous mes documents !

- 413 documents numérisés
- 1105 pages 😱
- 996 Mo

Maintenant que les documents sont physiquement rangés, je vais pouvoir avancer sur l'interface pour faciliter l'ajout de métadonnées et la recherche de documents 😁 !

Faudrait trouver un nom pour ce projet 🤔

Et j'ai vu un peu large niveau trieurs, je n'ai rempli que le A et le B 😂

L'ensemble de mes documents sont passés à la reconnaissance automatique de documents !

avec Tesseract, en local, suis pas fou, c'est des documents perso/administratifs

Certains résultats sont un peu bruités mais ce n'est pas grave ^^

Ça ne prends que 5,3Mo de stockage (en comparaison des 996Mo de la version image)

Prochaine étape, un algorithme qui suggère des métadonnées (expéditeur, date, ...) à partir du texte

Toujours pas de nom de projet par contre 😭

@Drulac je veux suivre ça !
@Quenti je me questionne s'il est pertinent de faire un compte Fediverse dédié au projet

@Drulac c'est quoi exactement le but de ce futur gestionnaires ? C'est plutôt classification par des étiquettes, avec de l'OCR ?

Je sais que Paperwork permet de faire quelques chose de proches mais sans convertir le titre originel du fichier.

@JBrickelt963 paperwork est vraiment abouti ! Par contre il manque une fonction pour ordonner physiquement les documents
@Drulac "pas compliqué et grand public" sans ce prérequis, t'avais paperless. Depuis que j'ai découvert ça, je numérisé tous mes documents et je suis super organisé 😁 (mais c'est vrai que c'est pas super grand public...).
Tu vas rendre disponible ton outil?

@fredds Oui ça me semble impératif que ça soit utilisable par des non technophiles. Parce que développer une dette technique pour diminuer une dette administratif, bof bof

Oui ça sera disponible, et open source 😁 !

@Drulac trop bien! Merci 😉
Parce que oui, justement, paperless, pour, par exemple, mes parents, ça semble un peu compliqué...

@Drulac il y a déjà certains projets comne Paperwork qui permet de le faire.

Mais chez eux tu dois importer le document dans le logiciel et tu perds donc le nom du fichier. Par contre ça fonctionne très bien sûr les caractères d'imprimerie ^^ #OCR #Tesseract

gImageReader reste encore la meilleure option mais c'est manuel sur chaque image. Et donc on perds la recherche textuel comme sur un gestionnaire de fichiers.

@JBrickelt963 J'ai pu tester paperwork en partie (ne fonctionne pas bien sur ma machine), il manque la fonction principale de mon projet : gérer le rangement des documents papiers 😉

Oui je pense utiliser Tesseract pour de l'OCR pour permettre une recherche dans le contenu, et éventuellement l'extraction assistée de métadonnées

@Drulac effectivement il n’y a pas de rangement possible en dehors des étiquettes et mois ce que je m’explique pas c’est qu’on perds le nom du fichiers qui peut être précieux.

@Drulac J'avais aussi testé Paperwork sans succès. Très curieux de voir l'avancement de ton projet !

J'ai en plus l'envie de pouvoir scanner des tickets de caisse et pouvoir rapidement calculer les dépenses de mes courses en différentes catégories de budgets

@KillianKemps c'est une fonction à laquelle j'ai pensé, mais c'est pas pour tout de suite 😁

Des idées de nom pour ce projet 👀 ?

@Drulac La question la plus difficile à répondre, trouver un nom à un projet 😃
Tu peux peut-être faire un brainstorming avec des mots-clés et décider si tu veux que le nom soit anglophone ou pas ?

On vient de me montrer Papra https://github.com/papra-hq/papra qui a l'air simple d'utilisation et plutôt complet. Tu l'avais déjà essayé aussi ?

GitHub - papra-hq/papra: The minimalistic document archiving platform.

The minimalistic document archiving platform. Contribute to papra-hq/papra development by creating an account on GitHub.

GitHub

@KillianKemps On m'as évoqué plusieurs réponses ce matin, dont Intercalaire, qui me plait bien 😁

Papra rassemble la plupart des fonctions qui m'intéresse, sauf la plus centrale : gérer le rangement des documents papiers 😉

Il y a d'autres dissensions techniques : interface inutilisable avec le JS désactivé par exemple

Je souhaite un projet low-tech 😉