LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle : точность извлечения информации описывает U-образную кривую — высока на краях контекста и падает в середине; в наших условиях используются SLM, поведение которых так же описано в статье, и оно характеризуется выраженным забыванием не только из середины, но также и из начала контекста. Более того, на бюджете 8 ГБ VRAM single-call длинного транскрипта практически неприменим*, что делает декомпозицию не оптимизацией, а необходимым условием работоспособности.

https://habr.com/ru/articles/1049640/

#LLM #локальные_LLM #llamacpp #квантизация #суммаризация_текста #длинный_контекст #мультиагентные_системы #семантическая_кластеризация #LLMasajudge #конспекты_лекций

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Аннотация Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language...

Хабр

[Перевод] Месть дата-сайентиста: почему LLM не отменили нашу профессию

LLM упростили запуск AI-функций до нескольких вызовов API, и дата-сайентисты будто бы выпали из критического пути. На практике именно здесь начинаются самые дорогие ошибки: команды берут готовые метрики, доверяют LLM-судьям и строят evals на синтетике, которая не похожа на прод. В статье — пять типичных ловушек современной AI-разработки и разбор того, почему умение смотреть в данные снова становится ключевой инженерной компетенцией. Разобрать ловушки

https://habr.com/ru/companies/otus/articles/1043824/

#harness #Data_Science #датасайентист #оценка_моделей #llm #llmasajudge #метрики_качества #анализ_ошибок #разметка_данных #mlops

Месть дата-сайентиста: почему LLM не отменили нашу профессию

Закончилась ли золотая эпоха дата-сайентистов? Когда-то Harvard Business Review назвал эту профессию «самой сексуальной работой XXI века». В технологической индустрии позиции data scientist часто...

Хабр

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты. Но у нас есть решение! В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и вы можете встроить его в свой продукт уже сегодня. Читать далее и оценивать

https://habr.com/ru/companies/sberbank/articles/1036650/

#llmагент #llmмодели #llm #llmasajudge #rag #метрики_продукта

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов....

Хабр

Mesurer l’immesurable : Comment évaluer les systèmes à base d’IA générative ?

https://video.ut0pia.org/w/amqXg4X9a269LvHvq4xTrN

Mesurer l’immesurable : Comment évaluer les systèmes à base d’IA générative ?

PeerTube

프롬프트, 이제는 LLM이 평가한다

프롬프트 품질, 이제는 감이 아니라 데이터로 판단합니다.
Prometheus 2와 GPT-4.1을 활용해 LLM이 다른 LLM 응답을 평가하는 'LLM-as-a-Judge' 실전 사례를 인포그랩이 공유합니다.

프롬프트 최적화는 이제 자동화되는 영역입니다. 더 이상 사람의 감각에 의존할 수 없습니다.

#LLM평가 #프롬프트엔지니어링 #Prometheus2 #GPT4.1 #LLMasaJudge
https://news.mrlatte.net/posts/2025/06/11/llm-as-a-judge-prompt-eval/

프롬프트, 이제는 LLM이 평가한다

프롬프트 품질, 이제는 감이 아니라 데이터로 판단합니다. Prometheus 2와 GPT-4.1을 활용해 LLM이 다른 LLM 응답을 평가하는 'LLM-as-a-Judge' 실전 사례를 인포그랩이 공유합니다.

라떼군 뉴스