Mastodawn

Por qué los benchmarks de IA mienten (con datos)

Los benchmarks de IA tienen errores de hasta 42% en sus datos y un gap del 37% con producción real. Cómo evaluar modelos sin que te tomen el pelo.

https://blog.donweb.com/benchmarks-modelos-ia-imprecisos-2026/

#benchmarksia #evaluacionmodelosllm #mmlu #rendimientomodelosia #leaderboardia

Benchmarks modelos IA imprecisos: la verdad en 2026

Los benchmarks de IA tienen errores de hasta 42% en sus datos y un gap del 37% con producción real. Cómo evaluar modelos sin que te tomen el pelo.

Blog Donweb

Winbuzzer Mar 23, 2025

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

Habr Oct 28, 2024

[Перевод] Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

https://habr.com/ru/articles/853542/

#LLM #оценка_систем_LLM #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #HellaSwag #GLUE #TruthfulQA

Как оценить LLM модель

Введение В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует...

Хабр

Habr Sep 30, 2024

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

https://habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

Как оценить качество LLM модели

Хабр

Habr Sep 23, 2024

[Перевод] Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные , необходимые для оценки LLM, в том числе: «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами) Способы передачи входных промтов в LLM Способы интерпретации/сбора ответов Вычисляемые метрики и оценки (а также способы их вычисления) Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

https://habr.com/ru/articles/844974/

#Бенчмарки #LLM #MathEval #GSM8K #MTBench #MMLU

Самые популярные LLM бенчмарки

Хабр

michabbb Sep 19, 2024

🚀 #Qwen2.5: New #AI model family released by Qwen Team

#LLM variants: 0.5B to 72B parameters, support 29+ languages including English, Chinese, French, Spanish
Specialized models: #Qwen2.5Coder for coding, #Qwen2.5Math for mathematics
128K token context length, can generate up to 8K tokens
#OpenSource under Apache 2.0 license (except 3B and 72B variants)

💡 Key improvements:

Enhanced knowledge (85+ on #MMLU)
Better coding skills (85+ on #HumanEval)
Improved math capabilities (80+ on #MATH)
Stronger instruction following and long text generation
Better handling of structured data and outputs (e.g., #JSON)

🔬 Performance highlights:

#Qwen2572B competitive with leading models like #Llama3 and #MistralAI
Smaller models (e.g., 3B) show impressive efficiency
#QwenPlus API model competes with #GPT4 and #Claude on some benchmarks

🛠️ Available via #HuggingFace, #vLLM, and other deployment options
📊 Comprehensive benchmarks and comparisons provided in the blog post

https://qwenlm.github.io/blog/qwen2.5/

Qwen2.5: A Party of Foundation Models!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD Introduction In the past three months since Qwen2’s release, numerous developers have built new models on the Qwen2 language models, providing us with valuable feedback. During this period, we have focused on creating smarter and more knowledgeable language models. Today, we are excited to introduce the latest addition to the Qwen family: Qwen2.5. We are announcing what might be the largest opensource release in history!

Qwen

Show thread

Upstage AI Sep 11, 2024

Get started here:
- @huggingface https://huggingface.co/upstage/solar-pro-preview-instruct

- Upstage Console: https://console.upstage.al/api-keys

- AWS marketplace: https://aws.amazon.com/marketplace/seller-profile?id=seller-56j52of2hnuzo

Visit our blog to learn more: https://www.upstage.ai/products/solar-pro-preview

#AI #machinelearning #GPU #MMLU #IFEVal #opensource

upstage/solar-pro-preview-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

GOMOOT

Jul 19, 2024

💡 OpenAI lancia GPT-4o mini

https://gomoot.com/openai-lancia-gpt-4o-mini/

#blog #ai #ChatGPT #Claude #gemini #GPT4omini #haiku #ia #MMLU #gemini #multimodale #news #OpenAI #picks #tech #tecnologia #token #turbo

GPT-4o mini OpenAI lancia un modello più economico e potente

OpenAI lancia GPT-4o mini: nuovo modello IA più economico e performante che sostituirà GPT-3.5 in ChatGPT, con capacità multimodali e maggiore accessibilità

Gomoot : tecnologia e lifestyle Scopri le ultime novità in fatto di hardware,tecnologia e altro

Gil Jan 28, 2024

Schaffst Du es, ChatGPT im MMLU-Test zu schlagen? https://www.nzz.ch/technologie/die-ki-beantwortet-90-prozent-dieser-fragen-richtig-und-sie-ld.1775917
#ChatGPT #MMLU #LLM

Intelligenztest für die KI: Kann der Mensch sie noch schlagen?

IQ-Tests für Chat-GPT und Co. sind zweifelhaft.

Neue Zürcher Zeitung

InfoQ Dec 14, 2023

Meet #Gemini - the first model to outperform human experts on #MMLU (Massive Multitask Language Understanding), one of the most popular methods to test the performance of language models: https://bit.ly/3ReWtNO

Explore more on #InfoQ!

#AI #Google #DeepLearning #ML

Google Launches New Multi-modal Gemini AI Model

On December 6, Alphabet released the first phase of its next-generation AI model, Gemini. Gemini was overseen and driven by its CEO, Sundar Pichai and Google DeepMind. Gemini is the first model to outperform human experts on MMLU (Massive Multitask Language Understanding), one of the most popular methods to test the performance of language models.

InfoQ