Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.

https://habr.com/ru/articles/917708/

#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен...

Хабр

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

https://habr.com/ru/articles/909280/

#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  За последний год мы сильно...

Хабр

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 7 лет занимается решениями в области машинного перевода и транскрипции речи. Время с момента моей первой статьи на Хабре прошло незаметно. Это были годы амбиций, упорства и стремления сделать лучший в мире переводчик, не имея в своем распоряжении тех ресурсов, которые доступны крупным корпорациям. Мне всегда казалось, что небольшие инженерные команды при правильном руководстве, мотивации и ограниченном финансировании, могут быстро создавать решения мирового уровня, порой буквально «из песка и палок». По крайней мере среди моих знакомых было несколько таких случаев, которые сделали их миллионерами. А что будет, если им дать еще суперкомпьютеры? А если дать им размеченные датасеты ? В этой статье я бы хотел порассуждать на эту тему, тем более нашей команде подвернулся интересный случай, о котором я хотел рассказать. Три месяца назад на мой email пришло предложение с возможностью бесплатного теста вычислительной станции от Nvidia DGX-H100. Одна из компаний продавала эти системы и искала потенциальных покупателей из числа тех, кто тренирует большие языковые модели, – а это как раз мы. Это было предложение, от которого нельзя было отказаться. Все наши предыдущие сервера не шли в какое-либо сравнение с той производительностью, которая оказалась в наших руках. Диапазон цены на DGX-H100 составляет от 250 до 350 тыс долларов. Ее заявленная производительность на fp8 составляет около 32 петафлопс (petaFlops). Мы тренируем наши модели для переводчика на fp16 и получаем около 16 petaFlops под задачи. Но что это означает для нас? Для этого стоит вернуться в 2017 год…

https://habr.com/ru/articles/864102/

#стартап #искусственный_интеллект #llm #искуственный_интеллект #переводчики #машинное_обучение #языковые_модели #artificial_intelligence #ии #железо

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 7 лет занимается решениями в области машинного перевода и транскрипции речи.  Время с момента моей первой...

Хабр

А за перевод «X-ray» как «Х-лучей» надо лóжить под экс-рэй-мащѝн и делать снимки черепной коробки с лóжномóзгом.

#переводчики
*переводчики