Оптимизация нейронных сетей для AI — переводчика

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf. Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты. Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными. Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения.

https://habr.com/ru/articles/916880/

#машинное+обучение #machinelearning #translator #ai #language_model #deeplearning #машинный_перевод #языковые_модели #нейросети #искусственный_интеллект

Оптимизация нейронных сетей для AI — переводчика

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.  В этой статье...

Хабр

Как устроено пространство, в котором думают языковые модели?

С момента выхода первой статьи «Attention is All You Need» я с жадностью и любопытством, присущими любому исследователю, пытаюсь углубиться во все особенности и свойства моделей на базе архитектуры трансформер. Но, если честно, я до сих пор не понимаю, как они работают и почему так хорошо обучаются. Очень хочу разобраться, в чём же причина такой эффективности этих моделей, и есть ли предел их возможностей? Такому изучению трансформеров «под микроскопом» и посвящена наша научная работа, только что представленная на конференции EACL 2024, которая проходила на Мальте — «The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models» . В этой работе мы сфокусировались на наблюдении за пространством эмбеддингов (активаций) на промежуточных слоях по мере обучения больших и маленьких языковых моделей (LM) и получили очень интересные результаты. Итак, приступим!

https://habr.com/ru/companies/airi/articles/804515/

#transformers #deep_learning #topology #machine_learning #llama #gpt #llm #language_model

Как устроено пространство, в котором думают языковые модели?

Изображение сгенерировано Dalle-3 Хабр, привет! Меня зовут Антон Разжигаев, я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI. С момента выхода первой статьи «Attention is...

Хабр

Локальные GPT нейронный сети — проверяем на адекватность аналоги ChatGPT, запускаемые на домашнем компьютере

Есть много LLM нейронных сетей, создатели которых говорят, что они аналогичны, а может даже лучше ChatGPT версий 3.5 и 4.0. Давайте попробуем протестировать их, и понять, действительно ли они так хороши.

https://habr.com/ru/articles/780092/

#chatgpt #локальный_chatgpt #машинное_обучение #language_model #deep_learning

Локальные GPT нейронный сети — проверяем на адекватность аналоги ChatGPT, запускаемые на домашнем компьютере

Есть много LLM нейронных сетей, создатели которых говорят, что они аналогичны, а может даже лучше ChatGPT версий 3.5 и 4.0. Давайте попробуем протестировать их, и понять, действительно ли они так...

Хабр

OmniFusion: выходим за границы текста

Кто-то ещё сомневается, что в мире машинного обучения происходит революция? Уверен, мы являемся свидетелями преобразования привычного взаимодействия с данными, поиска информации, да и вообще работы как таковой. Ведь умные ассистенты (ChatGPT, GigaChat, Bard) готовы взять на себя даже самые сложные задачи. Но не всегда возможно сформулировать проблему в виде текстового запроса, иногда требуется информация из других “модальностей” — картинка, звук, 3D и тд. Ниже я разберу какие именно есть способы соединения больших языковых моделей (LLM) с дополнительными форматами данных, а также опишу как устроена наша новая модель OmniFusion.

https://habr.com/ru/companies/airi/articles/775108/

#чатбот #gigachat #multimodality #language_model

OmniFusion: выходим за границы текста

Кто-то ещё сомневается, что в мире машинного обучения происходит революция? Уверен, мы являемся свидетелями преобразования привычного взаимодействия с данными, поиска информации, да и вообще работы...

Хабр