Меня позвали в крутой проект, спасибо Хабр

Но я облажался... Блин я даже в школе столько правил по русскому не читал, какой же наш язык сложный, а что бы реализовать все проверки, что бы правила корректно отрабатывали, проще застрелиться... Пришлось гуглить информацию по ЕГЭ 2025 года и ковыряться на НКРЯ. Много нового узнал =) В общей сложности потратили неделю, на реализацию концепта, функционал, перенос правил русского языка.

https://habr.com/ru/articles/968632/

#ai #nlp #mawo #kttc #русский_язык #переводы #качество #qa

Меня позвали в крутой проект, спасибо Хабр

Но я облажался... Предыстория: экосистема MAWO и вторая жизнь NLP-библиотек В русскоязычном сообществе разработчиков есть проблема — многие качественные NLP-библиотеки для русского языка перестали...

Хабр

Как мы адаптировали LLM для русского языка

Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed . В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли. Мы - это я и мой друг =)

https://habr.com/ru/articles/964510/

#nlp #llm #machinelearning #RussianNLP #tokenization #pytorch #deeplearning #ProductionML #mawo

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production reality Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv....

Хабр

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

https://habr.com/ru/articles/963748/?utm_source=habrahabr&utm_medium=rss&utm_campaign=963748

#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили...

Хабр

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

https://habr.com/ru/articles/963748/

#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили...

Хабр