AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

https://habr.com/ru/companies/mts_ai/articles/1027072/

#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие...

Хабр

Волков бояться — uplift в прод не катить, или AUF 2.0

Всем привет! Меня зовут Мельников Виктор, middle data scientist в Альфа-Банке в Управлении по разработке инструментов автоматизации моделирования. Год назад вышла статья о первой open source библиотеке Альфа-Банка для автоматического построения uplift-моделей Automatic Uplift Framework или же, сокращённо, AUF🐺. В ней мы рассмотрели основной функционал библиотеки с примерами кода. Также в ней можно найти ссылку на ноутбук с примером кода на открытом датасете. Прошел год, пришла пора рассказать о новшествах, а также о результатах применения библиотеки в Альфа-Банке. Также в конце будет ссылка на обновленный пример кода, с которым ты сможешь сразу начать строить uplift-модели быстро и качественно! Достаточно создать окружение с Python 3.8 и выполнить в нем команду pip install auf . Также доступен исходный код библиотеки на GitHub . В статье начнём с разбора того, как AutoML помогает превратить сложный поиск инкрементального эффекта в эффективный промышленный процесс. Вспомним основы uplift-моделирования и на практических кейсах покажем, как автоматизация ускорила разработку, позволила внедрить автопереобучение в продакшн и успешно реализовать поддержку мультитритмента. Вы узнаете, в каких сценариях AUF приносит максимум пользы, с какими ограничениями можно столкнуться и как использовать библиотеку для решения задач вашего бизнеса. Кроме прикладных кейсов, заглянем «под капот» архитектурных обновлений: от рефакторинга оптимизатора до продвинутой аналитики в стиле профи. Мы разберем новые режимы обучения, кастомизацию и инструменты глубокого анализа моделей, такие как оценка чувствительности сегментов и сравнение с моделями склонности. В завершение поделимся результатами масштабного рефакторинга кода, который сделал систему стабильнее, и расскажем, как наше видение «умных и свободных» моделей воплощается в жизнь прямо сейчас

https://habr.com/ru/companies/alfa/articles/1024090/

#uplift_modelling #data_science #machine_learning #python #open_source #automl #библиотека #коммуникация_с_клиентом #маркетинг #визуализации

Волков бояться — uplift в прод не катить, или AUF 2.0

Всем привет! Меня зовут Мельников Виктор, я middle data scientist в Альфа-Банке в Управлении по разработке инструментов автоматизации моделирования. Год назад вышла статья о первой open source...

Хабр
Title: P6: CTO mistakes and distributed training of NN [2023-09-19 Tue]
completion of this period, after one month and a half.\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management
Title: P4: CTO mistakes and distributed training of NN [2023-09-19 Tue]
5) Did not create a roadmap and did not discuss it with everyone.
6) Did not pay attention to the collected information on the research project and did not
consider its importance in planning.
7) Assigned multiple responsibilities to one person: gathering information, programming,\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management
Title: P5: CTO mistakes and distributed training of NN [2023-09-19 Tue]
planning, verifying assumptions, presenting a beautiful and clear result to management.
8) Forced one person to report to three different individuals.
9) Set two conflicting goals: a tight deadline of September 30 and small
meaningless goals.
10) Named a probationary period one month and firing after successeful\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management
Title: P2: P3: CTO mistakes and distributed training of NN [2023-09-19 Tue]
3) Hired people with different skills and abilities and organized competition between them
instead of building a team.
4) Demanded strict adherence to deadlines on a research project.\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management
Title: P1: P3: CTO mistakes and distributed training of NN [2023-09-19 Tue]
1) Did not introduce employees to each other, so nobody knew what each person was capable of.
2) Appointed leaders without explaining their responsibilities.\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management

Title: P2: CTO mistakes and distributed training of NN [2023-09-19 Tue]
3) you should create a list of your and your boss mistakes every
day or week to have measure of danger.
4) you need half of the year to get good reputation yourself before you can work freely.
5) explain your approach to work to head to be understood, and adapt to head.

Here is a list of mistakes of head of company:\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management

Title: P1: CTO mistakes and distributed training of NN [2023-09-19 Tue]
1) you should not write wiki until you 100hure, that you will not be fired,
they will not value it anyway.
2) in subordination it is necessary to perform closes and far task 100 percent
and 100 percent clearly indicate 1. when and 2. what will be at the and.
Or you will be fired no matter what.\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management

Title: P0: CTO mistakes and distributed training of NN [2023-09-19 Tue]
I found out, that distributed training of neural networks require very
low latency between nodes. It is required to use better network equipment and
adjustments to network settings to get better training speed
than at single machine, and bigger batches of course.

I have been fired in one month and 2 weeks and I learned that:\n#nn #ai #neural #automl #tensorflow #tf #torch #pytorch #llama #llama2 #management