Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.

https://habr.com/ru/articles/917708/

#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен...

Хабр

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

https://habr.com/ru/articles/909280/

#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  За последний год мы сильно...

Хабр

Удмурты понимают меня лучше всех ...

#переводчик #работа #удмуртия

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...

https://habr.com/ru/articles/879212/

#суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Как я объединил перевод и суммаризацию текстов, и что из этого вышло. Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного...

Хабр
Туристам на заметку: названы лучшие бесплатные приложения-переводчики для путешествий

Эти приложения позволят лучше понять носителей иностранных языков во время путешествий.

УНИАН

Как гуманитарию выжить в ИТ-компании, да еще пользу принести?

Привет, Хабр! Меня зовут Иван Чаплыгин, и я гуманитарий до мозга костей. Сейчас из всех ящиков только и слышно, что все хотят вкатиться в ИТ, но почему-то мало кто говорит о том, как в этом самом ИТ обетованном выжить. Лично я «вкатился» четырнадцать лет назад. Меня никто не звал, и будущие коллеги даже выказывали вполне справедливое недоумение, куда это я с такой физиономией с таким бэкграундом да в айтишный ряд. Но так или иначе я до сих пор жив, вроде как пользу приношу и даже теперь руковожу отделом перевода в ИТ-компании КРОК. Хотите узнать, что гуманитарию делать в ИТ и как я оставался на плаву все эти годы, добро пожаловать под кат.

https://habr.com/ru/companies/croc/articles/867958/

#выжить_на_работе #итиндустрия #itкомпании #переводчик #гуманитарии_в_ит #гуманитарий

Как гуманитарию выжить в ИТ-компании, да еще пользу принести?

Привет, Хабр! Меня зовут Иван Чаплыгин, и я гуманитарий до мозга костей. Сейчас из всех ящиков только и слышно, что все хотят вкатиться в ИТ, но почему-то мало кто говорит о том, как в этом самом ИТ...

Хабр

Как гуманитарию подойти к IT: из переводчика в технические писатели

Всем привет! Меня зовут Мария Ибрагимова, я технический писатель в X5 Tech. Но так было не всегда. Ещё каких-то 4 года назад я работала в проектном институте с устрашающим названием ЛЕННИИХИММАШ и не представляла себя в сфере информационных технологий. Хочу поделиться своим опытом, как мне удалось подойти к IT.

https://habr.com/ru/companies/X5Tech/articles/866312/

#технический_писатель #технический_перевод #смена_профессии #переводчик #техническая_документация #гуманитарии_в_ит #техписы

Как гуманитарию подойти к IT: из переводчика в технические писатели

Всем привет! Меня зовут Мария Ибрагимова, я технический писатель в X5 Tech. Но так было не всегда. Ещё каких-то 4 года назад я работала в проектном институте с устрашающим названием ЛЕННИИХИММАШ и не...

Хабр

Уникальный Android нетбук-трансформер за 2.000 рублей — идеальный ретро-пк для эмуляторов

Я очень люблю различные ноутбуко-подобные устройства на необычных процессорах. Мне нравится коллекционировать и ковырять машинки на MIPS, ARM, RISC, SH3 и других диковинных архитектурах. Пару месяцев назад я джейлбрейкнул и расковырял электронный переводчик на Windows CE, превратив его в полноценный мини-ноутбук, а недавно мне в руки попал весьма интересный девайс — электронный переводчик с QWERTY-клавиатурой, представляющий из себя планшет-трансформер на Android из далекого 2013 года всего за 2 000 рублей. Что за аппарат можно купить за такую скромную сумму и чем он может быть полезен в наше время? Читайте в статье!

https://habr.com/ru/companies/timeweb/articles/863626/

#bodyawm_ништячки #ectaco #девайсы #гаджеты #переводчик #android #смартфон #планшет #обзор #timeweb_статьи

Уникальный Android нетбук-трансформер за 2.000 рублей — идеальный ретро-пк для эмуляторов

Да, слева китайский айфон с клавиатурой! Я очень люблю различные ноутбуко-подобные устройства на необычных процессорах. Мне нравится коллекционировать и ковырять машинки на MIPS, ARM, RISC, SH3 и...

Хабр

Переводчик текста для терминала

Большое количество специалистов в области IT используют переводчики текста в своей работе, и я тому не исключение. Достаточно часто в вакансиях Системного администратора можно встретить требуемый навык - "чтение технической документации на английском языке" , но, не всегда такая документация может быть очевидной в полной мере, даже имея базовый уровень английского языка, и как мне кажется, тут нечему стесняется. Для перевода текста чаще всего используется браузер, а также десктопные приложения, я же расскажу про альтернативу таким решениям, для перевода текста прямо в консоли Linux или Windows.

https://habr.com/ru/articles/842288/

#translate #переводчик #google_translate #deepl #mymemory #reverso #console #tui

Переводчик текста для терминала

Всем привет! Думаю, что большое количество специалистов в области IT используют переводчики текста в своей работе, и я тому не исключение. Достаточно часто в вакансиях Системного администратора можно...

Хабр

Наш опыт создания контекстного переводчика

Все началось осенью 2017 года, тогда у нас уже был опыт разработки веб-приложений. Искали проект, удовлетворяющий следующим условиям: 1. Можно сделать небольшой командой. 2. Проверенная идея и большой потенциал роста. 3. Понимание как сделать лучше. 4. Оптимальное время разработки и выход на самоокупаемость. 5. Отсутствие проблем с правообладателями и законом.

https://habr.com/ru/articles/851856/

#переводчик #изучение_языков #контекстный_поиск #обработка_естественного_языка #стартапы

Наш опыт создания контекстного переводчика

Выбор проекта Все началось осенью 2017 года, тогда у нас уже был опыт разработки веб-приложений. Искали проект, удовлетворяющий следующим условиям: Можно сделать небольшой командой. Проверенная идея и...

Хабр