Машинный перевод интерфейсов: что работает, а что нет — на реальном кейсе

За последние годы машинный перевод сделал серьёзный шаг вперёд. Если раньше он использовался в основном туристами, пытающимися объясниться с местными за границей, то сегодня его активно применяют в бизнесе. Особенно востребован он при переводе технической документации: благодаря объемам, прямому стилю и предсказуемой структуре, машинный перевод обеспечивает хорошее качество и позволяет существенно экономить ресурсы и поддерживать стабильное качество. Но можно ли использовать машинный перевод в интерфейсе — самой чувствительной части продукта для пользователя? Я управляю локализацией цифровых продуктов с акцентом на масштабирование процессов, их интеграцию в продуктовые циклы и соответствие бизнес-целям. Один из ключевых векторов моей работы — внедрение решений, ускоряющих выход продукта на международные рынки, включая стратегическое использование машинного перевода. В этой статье, опираясь на реальный кейс из своей практики, я расскажу, как выявить типичные ошибки нейронного машинного перевода в интерфейсах и понять, насколько такой подход подходит для вашего продукта. Это поможет принять взвешенное решение: можно ли использовать машинный перевод интерфейса вашего продукта без ущерба для качества локализации и пользовательского опыта.

https://habr.com/ru/articles/919388/

#локализация_продуктов #управление_продуктом #управление_проектами #машинный_перевод #интерфейсы #дизайн_интерфейсов

Машинный перевод интерфейсов: что работает, а что нет — на реальном кейсе

За последние годы машинный перевод сделал серьёзный шаг вперёд. Если раньше он использовался в основном туристами, пытающимися объясниться с местными за границей, то сегодня его активно применяют в...

Хабр

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.

https://habr.com/ru/articles/917708/

#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен...

Хабр

Оптимизация нейронных сетей для AI — переводчика

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf. Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты. Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными. Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения.

https://habr.com/ru/articles/916880/

#машинное+обучение #machinelearning #translator #ai #language_model #deeplearning #машинный_перевод #языковые_модели #нейросети #искусственный_интеллект

Оптимизация нейронных сетей для AI — переводчика

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  В этой статье...

Хабр

Способны ли нейросети реконструировать древние языки?

В настоящее время нейросети успешно используются для языкового перевода. По сравнению со старыми программами и онлайн переводчиками, прогресс на лицо. Алгоритмы демонстрируют более тонкое понимание речи, владение контекстом, они способны к стилизации. И если с современными языками нейросети справляются довольно толково, возникает вопрос: как насчет древних? До сих пор работа с ними представляла существенное затруднение. Скажем, тот же Google Translate из рук вон плохо работает с латынью. Между тем, лингвисты давно предпринимают попытки реконструкции еще более древних языков, к примеру — праиндоевропейского. Разумеется, подобные разработки имеют только гипотетический характер. Тем не менее сравнительное языкознание выработало алгоритмы, согласно которым язык можно «состарить», низведя его до определенной стадии развития. Способны ли современные нейросети выполнить качественную реконструкцию архаичных языков? И как проверить ее достоверность? Для практического разрешения данных вопросов обратимся к сервису DeepSeek. По моему опыту, пока он продемонстрировал лучший результат среди подобных средств. Рассматриваемая сеть довольно адекватно справляется с переводом отдельных слов на древние языки, причем аргументирует свой выбор. Но осилит ли она целый художественный текст? Для примера я заставил ее перевести на праиндоевропейский, являющийся далеким предком нашего языка, четверостишие в эпическом духе: Облака плывут по небесам В белых стаях мчатся души павших Это — воинства былых веков По земле их слава ходит в песнях

https://habr.com/ru/articles/910822/

#DeepSeek #нейросети #лингвистика #машинный_перевод #праиндоевропейский_язык

Способны ли нейросети реконструировать древние языки?

В настоящее время нейросети успешно используются для языкового перевода. По сравнению со старыми программами и онлайн переводчиками, прогресс на лицо. Алгоритмы демонстрируют более тонкое понимание...

Хабр

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

https://habr.com/ru/articles/909280/

#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  За последний год мы сильно...

Хабр

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд. Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

https://habr.com/ru/companies/yandex/articles/902086/

#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы...

Хабр

Как мы создавали новый LLM-переводчик Яндекса

Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.

https://habr.com/ru/companies/yandex/articles/884416/

#LLM #машинный_перевод #nlp #alignment #yandexgpt #яндекс #machine_learning

Как мы создавали новый LLM-переводчик Яндекса

Привет, Хабр! Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя...

Хабр

Я его слепила… Почему при переводе ИТ-тексты иногда приходится дописывать

Привет, Хабр! Это Иван Чаплыгин, руководитель отдела переводов в компании «КРОК». Как вы уже знаете, мы постоянно переводим самые разные тексты, и обычно требования к переводу предъявляются строгие: переводчик должен четко передать смысл и букву оригинала, ничего не выдумывая и не добавляя от себя. Однако из любого правила бывают исключения, и сегодня я расскажу о тех редких случаях, когда приходится дописывать текст, добавлять то, чего там изначально не было. Иначе вместо нормального перевода получится итальянская забастовка. Все любители нарушать правила – это история для вас. За подробностями добро пожаловать под кат.

https://habr.com/ru/companies/croc/articles/882164/

#перевод #итпереводчик #гуманитарии_в_ит #трудности_перевода #машинный_перевод #перевод_статьи

Я его слепила… Почему при переводе ИТ-тексты иногда приходится дописывать

Привет, Хабр! Это Иван Чаплыгин, руководитель отдела переводов в компании «КРОК». Как вы уже знаете, мы постоянно переводим самые разные тексты, и обычно требования к переводу предъявляются строгие:...

Хабр

Машинный перевод

Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.

https://habr.com/ru/articles/879240/

#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model

Машинный перевод

Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод – одна из самых старых и проработанных задач...

Хабр

Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?

Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством. Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.

https://habr.com/ru/companies/croc/articles/860280/

#перевод #машинный_перевод #чат_gpt #искусственный_интеллект #google_translate #техномаркетинг #ии

Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?

Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом...

Хабр