Mastodawn

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle : точность извлечения информации описывает U-образную кривую — высока на краях контекста и падает в середине; в наших условиях используются SLM, поведение которых так же описано в статье, и оно характеризуется выраженным забыванием не только из середины, но также и из начала контекста. Более того, на бюджете 8 ГБ VRAM single-call длинного транскрипта практически неприменим*, что делает декомпозицию не оптимизацией, а необходимым условием работоспособности.

https://habr.com/ru/articles/1049640/

#LLM #локальные_LLM #llamacpp #квантизация #суммаризация_текста #длинный_контекст #мультиагентные_системы #семантическая_кластеризация #LLMasajudge #конспекты_лекций

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Аннотация Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language...

Хабр

Habr Jun 9

[Перевод] Месть дата-сайентиста: почему LLM не отменили нашу профессию

LLM упростили запуск AI-функций до нескольких вызовов API, и дата-сайентисты будто бы выпали из критического пути. На практике именно здесь начинаются самые дорогие ошибки: команды берут готовые метрики, доверяют LLM-судьям и строят evals на синтетике, которая не похожа на прод. В статье — пять типичных ловушек современной AI-разработки и разбор того, почему умение смотреть в данные снова становится ключевой инженерной компетенцией. Разобрать ловушки

https://habr.com/ru/companies/otus/articles/1043824/

#harness #Data_Science #датасайентист #оценка_моделей #llm #llmasajudge #метрики_качества #анализ_ошибок #разметка_данных #mlops

Месть дата-сайентиста: почему LLM не отменили нашу профессию

Закончилась ли золотая эпоха дата-сайентистов? Когда-то Harvard Business Review назвал эту профессию «самой сексуальной работой XXI века». В технологической индустрии позиции data scientist часто...

Хабр

Habr May 19

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты. Но у нас есть решение! В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и вы можете встроить его в свой продукт уже сегодня. Читать далее и оценивать

https://habr.com/ru/companies/sberbank/articles/1036650/

#llmагент #llmмодели #llm #llmasajudge #rag #метрики_продукта