Основные метрики DeepEval для тестирования AI. Возможности и способы применения

DeepEval - фреймворк для оценки работы AI с открытым исходным кодом. Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени. В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG). В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.

https://habr.com/ru/articles/955314/

#тестирование #ai #искусственный_интеллект #искусственный_интелект #aiagent #aiагенты #mcpserver #conversational_ai #multimodal_llm #multimodal_large_language_models

Основные метрики DeepEval для тестирования AI. Возможности и способы применения

Всем привет! DeepEval - фреймворк для оценки работы AI с открытым исходным кодом. Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты...

Хабр

Что я вынес из Oxford Machine Learning Summer School 2025

Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.

https://habr.com/ru/articles/956138/

#машинное_обучение #llm #computer_vision #multimodal_llm #generative_ai #reinforcementlearning #edge_ai #diffusion_models #образование_в_it #oxford

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of Oxford Вдохновлено обзором про похожую школу — EEML . Цель данной статьи, показать внутренности коротких курсов, проводимых в одном из старейших...

Хабр

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Современные LLM умеют «читать» не только текстовые материалы, но и визуальные — от сканов договоров и таблиц до рукописей и диаграмм, и даже обзавелись новым названием — VLM (Vision Language Models)....

Хабр

Меньше — лучше: как Polaris-4B обошёл Qwen3-32B

Привет, Хабр! В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B‑Preview и Polaris-7B‑Preview , обученные с нуля на reasoning‑задачах с использованием Reinforcement Learning. Эти модели не просто догоняют топовые коммерческие аналоги вроде Claude‑Opus и Grok-3-Beta — они их обгоняют. Причём на архитектуре всего в 4 миллиарда параметров. Все это результат продуманного инженерного подхода. В этой статье коротко рассмотрим, как авторам Polaris это удалось.

https://habr.com/ru/companies/otus/articles/921652/

#ML #искусственный_интеллект #machine_learning #нейросети #multimodal_LLM

Меньше — лучше: как Polaris-4B обошёл Qwen3-32B

Привет, Хабр! В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B-Preview и Polaris-7B-Preview , обученные с нуля на reasoning-задачах с использованием...

Хабр

Новый вид контента: ИИллюстрированная аудиокнига

Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги с помощью серии иллюстраций! Эта идея меня захватила, и я написал небольшой проект...

https://habr.com/ru/articles/915174/

#llm #multimodal_llm #аудиокниги #медиа

Новый вид контента: ИИллюстрированная аудиокнига

Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги...

Хабр

[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям. Узнайте, какие именно тесты провалили новинки и где показали уверенный результат.

https://habr.com/ru/articles/909052/

#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #VQA #ocr

Reasoning CV-модели OpenAI не смогли посчитать монеты

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...

Хабр

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были. Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

https://habr.com/ru/companies/raft/articles/857118/

#Vision_Transformers #Vision_Language_Models #multimodal_llm #Llama32 #qwen2vl #llava #art #art_history

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их,...

Хабр

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что

https://habr.com/ru/companies/isp_ras/articles/831550/

#Opensource_LLM #Multimodal_LLM #Attacks_on_LLM #Alignment_LLM #Adversarial_attacks #Backdoor_attacks #Trusted_AI_Research_Center_ISP_RAS

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что модели могут неправильно...

Хабр