Машинный перевод. Как развивалась технология

Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.

https://habr.com/ru/articles/1003076/

#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing

Машинный перевод. Как развивалась технология

Машинный перевод - это одно из самых удивительных достижений ИИ. Под этим термином понимают автоматический перевод текста с одного языка на другой с помощью компьютерных алгоритмов. Несколько...

Хабр

Must tell when AI is used, but can't always tell.

I read a news story translation from english to spanish done with "help" of AI. I begin to wonder how many news sources use AI to write stories but do not mention it. AP? NYT? Chronicle?

#AI #news #machine_translation

How AI and Wikipedia have sent vulnerable languages into a doom spiral

Machine translators have made it easier than ever to create error-plagued Wikipedia articles in obscure languages. What happens when AI models get trained on junk pages?

MIT Technology Review

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

https://habr.com/ru/articles/956408/

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо...

Хабр

Как протестировать машинный переводчик

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества. В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.

https://habr.com/ru/articles/955954/

#тестирование #машинный_перевод #тестовые_данные #qa #переводчик #llmмодели #языковые_модели #machine_translation #датасеты #подход_к_тестированию

Как протестировать машинный переводчик

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует...

Хабр

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

https://habr.com/ru/articles/909280/

#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  За последний год мы сильно...

Хабр

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!

https://habr.com/ru/articles/791616/

#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

TLDR Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченную поддержку нескольких языков. Однако у машинного...

Хабр

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для языковых моделей. Этим летом мы опубликовали две статьи на ACL 2023 . Про одну из них я уже рассказывал в одном из предыдущих текстов — там мы описали новый гибридный метод оценивания неопределенности для задачи выборочной классификации текстов. Другая же статья про то, как мы адаптировали современные методы оценивания неопределенности на основе скрытого представления модели для задачи генерации текста, а так же показали их высокое качество и скорость работы для задачи обнаружения примеров вне обучающего распределения. Ниже я хотел бы подробнее рассказать об используемых методах и результатах, которые мы получили.

https://habr.com/ru/companies/airi/articles/787340/

#uncertainty_estimation #natural_language_processing #machine_translation #question_answering #summarization #seq2seq

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для...

Хабр
Attention Is All You Need

YouTube
Attention Is All You Need

YouTube