Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.
https://habr.com/ru/articles/924174/
#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных