Машинный перевод. Как развивалась технология

Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.

https://habr.com/ru/articles/1003076/

#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing

Машинный перевод. Как развивалась технология

Машинный перевод - это одно из самых удивительных достижений ИИ. Под этим термином понимают автоматический перевод текста с одного языка на другой с помощью компьютерных алгоритмов. Несколько...

Хабр

Курс Natural Language Processing & LLMs — новый сезон

новый запуск курса начинается 10 февраля курс включает в себя все базовые технологии от TF-IDF до агентов, про вайб-кодинг тоже поговорим

https://habr.com/ru/companies/ru_mts/articles/990832/

#анализ_текста #анализ_текстов #искусственный_интеллект #nlp #naturallanguageprocessing #natural_language_processing #natural_language_understanding #llm #агенты #агенты_ии

Курс Natural Language Processing & LLMs — новый сезон

Всем привет! 10 февраля мы в очередной раз запускаем бесплатный онлайн-курс по обработке естественного языка (Natural Language Processing). Если кто-то не знал или забыл, это проект Open Data Science...

Хабр

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Архитектура трансформера и его сердце механизм внимания уже давно стали базой собесов на NLP, LLM и даже CV. В работе трансформеры тоже доминируют. Именно поэтому очень важно до деталей разбираться в том, как они устрены, из каких частей состоят, как работают и где применяются на практике. Разберем архитектуру по слоям с примерами кода и большим количеством картинок и схем.

https://habr.com/ru/articles/972178/

#transformers #attention #llms #natural_language_processing #nlp #нлп #механизм_внимания #трансформеры #глубокое_обучение #машинное_обучение

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP! Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться...

Хабр

GigaMemory на AI Journey Contest 2025: итоги

Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного модуля долговременной памяти для языковых моделей, способного накапливать и использовать знания о конкретном пользователе, по сути наделяя ИИ способностью «помнить» своего собеседника. Пришло время объявить результаты соревнования и разобрать лучшие решения участников!

https://habr.com/ru/companies/sberbank/articles/974310/

#artificial_intelligence #natural_language_processing #большие_языковые_модели #хакатон #соревнование #машинное_обучение #память #gigachat #хакатоны

GigaMemory на AI Journey Contest 2025: итоги

Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного...

Хабр

«Король глядит угрюмо…» — а я считаю звуки. Цифровое сравнение Стивенсона и Маршака

Стивенсон и Маршак. Схватка поэтических тяжеловесов, которую можно судить с помощью кода Python. Награда - вересковый мед.

https://habr.com/ru/articles/972154/

#python #токенизация #naturallanguageprocessing #natural_language_processing #nlp #поэзия #литература #чтение

«Король глядит угрюмо…» — а я считаю звуки. Цифровое сравнение Стивенсона и Маршака

Знаменитая баллада Роберта Стивенсона "Вересковый мед" в оригинале называется Heather Ale – вересковый эль. Секрет приготовления верескового эля — популярная в Шотландии легенда, согласно которой...

Хабр

Как я Альфе новый навык делал и что из этого вышло

Привет, Хабр! Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз — так сошлись звезды или под влиянием магнитных бурь — мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

https://habr.com/ru/companies/timeweb/articles/961484/

#голосовой_ассистент #python #natural_language_processing #timeweb_статьи

Как я Альфе новый навык делал и что из этого вышло

Привет, Хабр! Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для...

Хабр

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя . Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и по доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами. Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу GigaMemory: global memory for LLM. Мы предлагаем участникам построить долгосрочную персональную память для языковой модели — систему, которая хранит, обновляет и надёжно извлекает знания о конкретном пользователе . Привычки, предпочтения, ограничения и прочие факты о пользователе, которые могут пригодиться в дальнейшем общении. Цель — научить ИИ отвечать не «в среднем по больнице», а исходя из вашего реального контекста: от прошлых задач на работе до семейных дат и спортивных планов.

https://habr.com/ru/companies/sberbank/articles/957292/

#artificial_intelligence #natural_language_processing #большие_языковые_модели #хакатон #соревнования #хакатоны #машинное_обучение #память #gigachat

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели  не помнят пользователя . Между сессиями теряются имя,...

Хабр
Diffusion Beats Autoregressive in Data-Constrained Settings

Check out our new blog post on "Diffusion beats Autoregressive in Data-Constrained settings". The era of infinite internet data is ending. This research paper asks:  What is the right generative modeling objective when data—not compute—is the bottleneck?

Machine Learning Blog | ML@CMU | Carnegie Mellon University

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы. Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval . Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки. Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей.

https://habr.com/ru/articles/946264/

#llm #natural_language_processing #machine_learning #artificial_intelligence #перевод_с_английского #пситехлаб #датасет

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте . Я расскажу вам, как мы...

Хабр

Создание Системы генерации ответов на истории тикетов поддержки (часть 2)

Привет, Хабр! Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре. В этой части переходим к семантическому поиску, контекстному сходству и SentenceTransformer.

https://habr.com/ru/articles/945404/

#искусственный_интеллект #искусственные_нейронные_сети #обработка_естественного_языка #natural_language_processing #поддержка_клиентов #поддержка_пользователей #большие_языковые_модели #автоматизация_бизнеса #aiпоиск #aiразработка

Создание Системы генерации ответов на истории тикетов поддержки (часть 2)

Привет, Хабр! Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать Систему генерации ответов на основе...

Хабр