Grâce au forum de la communauté de LibreTranslate, je découvre un outil très intéressant qui détecte les « les frontières des phrases » ou « sentence boundaries » dans un corpus textuel.

pySBD est utilisable à la place de `Stanza` pour découper les phrases selon les règles de ponctuation et d'abréviation de chaque langue.

En lisant le code, vous pouvez ajouter les caractéristiques de votre langue et pouvoir ainsi traiter vos textes.

PySBD : https://github.com/nipunsadvilkar/pySBD

#pySBD #Stanza

GitHub - nipunsadvilkar/pySBD: 🐍💯pySBD (Python Sentence Boundary Disambiguation) is a rule-based sentence boundary detection that works out-of-the-box.

🐍💯pySBD (Python Sentence Boundary Disambiguation) is a rule-based sentence boundary detection that works out-of-the-box. - nipunsadvilkar/pySBD

GitHub