Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.

https://habr.com/ru/articles/924174/

#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных

Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать...

Хабр

lnav — супернедооценённый инструмент для работы с логами

Доброго дня. Это мой первый пост на хабре, поэтому не будьте особо строги к нему. В мире разработки, системного администрирования и DevOps не смотря на то, что давно существуют и заняли свою нишу инструменты, связанные с централизованным сбором, визуализацией и анализом логов (graylog, ELK/EFK, loki, loggly и другие), всё ещё существует необходимость периодически взять шашку в руки и поработать со старыми/добрыми (а может быть и не очень добрыми) текстовыми логами. За 21 год своей деятельности я успел побыть системным администратором, DevOps инженером, разработчиком, CTO и системным аналитиком, но необходимость периодической работы с логами неизменно присутствовала в том или ином виде всегда. Это может быть разбор вывода нового сервиса или контейнера на машине разработчика, что-то, что ещё не успели завести (или сознательно по каким-либо причинам не завели) на централизованную систему сбора логов или, например, сервис, временно включенный в режиме debug для поиска причин проблемы. Ситуаций бывает много и ситуации бывают разные, а текстовые логи были, есть и ещё долго будут с нами. Все, кто как-либо связан с DevOps знают про такие утилиты как more, less, tail, head, grep, sed, awk (а кто-то и ещё десяток более специфичных) и при необходимости их используют, но из тех, с кем я общался, никто не подтвердил мне, что знает про lnav. Я и сам не знал и искал нечто подобное более десяти лет. lnav — это не просто швейцарский армейский нож в мире работы с логами, а целый космический корабль, на котором можно улететь в соседнюю галактику. Мой мир разделился на "до" и "после" знакомства с этой утилитой. Там, где раньше требовались часы, а то и десятки часов на анализ логов, теперь хватает считанных минут.

https://habr.com/ru/articles/839970/

#logging #администрирование_linuxсистем #инструментарий #tui

lnav — супернедооценённый инструмент для работы с логами

Доброго дня. Это мой первый пост на хабре, поэтому не будьте особо строги к нему. В мире разработки, системного администрирования и DevOps не смотря на то, что давно существуют и заняли свою нишу...

Хабр

«Синий» путь: инструменты, обучение и Open SOC

Всем привет! На связи Макар Ляхнов, аналитик по информационной безопасности в Innostage. Продолжаем наш цикл статей по глобальным направлениям ИБ. Сегодня мы погрузимся в мир blue team и посмотрим, как подготовиться защитнику, сделав упор на эффективные инструменты, обучение и создание открытого Security Operations Center (SOC).

https://habr.com/ru/companies/innostage/articles/785194/

#soc #blue_team #security_operations_center #кибербезопасность #киберзащита #информационная_безопасность #инструментарий #инструменты_мониторинга #расследование_инцидентов

«Синий» путь: инструменты, обучение и Open SOC

Всем привет! На связи Макар Ляхнов, аналитик по информационной безопасности в Innostage. Продолжаем наш цикл статей по глобальным направлениям ИБ. В прошлой статье мы рассмотрели разницу между red...

Хабр