Битрикс24 бенчмарк для оценки LLM

Картинка сгенерированая по запросу "сгенерируй картинку про битрикс24 и искусственный интеллект" неплохо отражает итоговые результаты

https://habr.com/ru/articles/932216/

#битрикс24 #llm #ии_чатбот #gemini #бенчмаркинг #бенчмарки_бям #бенчмарк_кода #битрикс_отладка_вебразработка #ииагенты

Битрикс24 бенчмарк для оценки LLM

В преддверии выхода GPT-5 хотелось сделать бенчмарк который по-настоящему проверит её способности. Не прекращаются споры – если LLM просто стохастические попугаи, то как решают олимпиадные задачи по...

Хабр

Бенчмарки и метрики сравнения с продуктами-конкурентами как инструменты повышения качества мобильного приложения

Привет, Хабр. Я всё тот же разработчик YoloPrice, приложения для поиска и сравнения цен по маркетплейсам, интернет-магазинам и классифайдам. В прошлый раз я рассказал, как я привлек бесплатно несколько тысяч новых пользователей. Но просто привлечь пользователей это одно, а вот сделать так, чтобы они регулярно начали пользоваться приложением и рекомендовали его другим - это задача со звездочкой. Расскажу в этой статье, как я ее решал. Для решения этой задачи продуктовые команды используют термин Product Market Fit (PMF) - это состояние, когда продукт удовлетворяет реальную потребность (ее часто называют “боль”), вызывая активный спрос у целевой аудитории. При этом, пользователи не просто пробуют продукт, а регулярно используют, платят за него и рекомендуют другим, демонстрируя его ценность. Для пользователей сервисов сравнения цен PMF = Сервис экономит время и деньги. Без этого пользователи уйдут к конкурентам или в обычные поисковые системы. Для своего приложения, анализируя поведение пользователей, я заметил, что первым делом меня проверяют на том, что недавно покупали, и если я теряю товары с минимальной ценой, то это приводит к недоверию и отказу от дальнейшего использования. Таким образом, в моем приложении основной блокер начала использования сервиса и один из ключевых для PMF - сервис не находит минимальную цену/предложение, о котором явно пользователь знает и использует для первичной проверки YoloPrice. Самый очевидный способ устранения данного блокера - брать запрос пользователя и проверять, потеряли ли мы минимальную цену или нет. Но этого мало, нужно понимать насколько твой продукт по ключевым метриками для PMF лучше/хуже альтернативных способов удовлетворения потребности Пользователей (читай - конкурентов) и регулярно отслеживать рэнкинг по этим метрикам.

https://habr.com/ru/articles/926910/

#бенчмаркинг #мобильная_разработка #product_market_fit #мобильные_приложения #сравнение_цен #поиск_товаров #исследование_рынка #принятие_решений

Бенчмарки и метрики сравнения с продуктами-конкурентами как инструменты повышения качества мобильного приложения

Привет, Хабр. Я всё тот же разработчик YoloPrice, приложения для поиска и сравнения цен по маркетплейсам, интернет-магазинам и классифайдам. В прошлый раз я рассказал, как привлек бесплатно несколько...

Хабр

Зимняя школа RISC-V: измеряем латентность и пропускную способность, оптимизируем приложения на C#

Зимняя школа RISC-V — совместный проект YADRO и ведущих технических вузов России и Беларуси. В этом году зимняя школа прошла во второй раз: 12 лекций по разработке на RISC-V в январе и проектная работа с защитой в начале февраля. Далее в статье мы расскажем об итогах школы, дадим слово кураторам и начнем делиться самыми интересными проектами потока. Для проектов мы предложили 19 тем, которые распределили по пяти вузам — СПбГУ, ИТМО (Санкт-Петербург), ННГУ (Нижний Новгород), НГУ (Новосибирск) и БГУИР (Минск). В итоге своих героев не нашла только одна тема: почти 100 студентов защитили 18 проектов. Забегая вперед, скажем: два проекта мы осветим в этой статье, а некоторые другие — в отдельных.

https://habr.com/ru/companies/yadro/articles/907048/

#зимняя_школа_riscv #оптимизация_приложений #бенчмаркинг #riscv #студенческие_проекты #студенты #сезон_open_source

Зимняя школа RISC-V: измеряем латентность и пропускную способность, оптимизируем приложения на C#

Зимняя школа RISC-V — совместный проект YADRO и ведущих технических вузов России и Беларуси. В этом году зимняя школа прошла во второй раз: 12 лекций по разработке на RISC-V в январе и проектная...

Хабр

[Перевод] Что покажет бенчмарк? Оценка мультиагентных систем в действии

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

https://habr.com/ru/articles/904904/

#ai_agent #ai_агенты #ии_агенты #ииагенты #ии #ai #benchmarking #бенчмаркинг

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Оценка ИИ-агентов с контролем затрат В области оценки ИИ-агентов контроль затрат имеет первостепенное значение. По мере усложнения ИИ-агентов экономические последствия их развертывания становятся всё...

Хабр

[Перевод] LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

https://habr.com/ru/articles/893644/

#llm #бенчмаркинг #llmприложения #red_teaming #prompt_injection #jailbreaking #anthropic

LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался...

Хабр

[Перевод] Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку: • Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации. • После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий. Таким образом, необходимо определить: • Оптимальные методы оценки моделей • Подходящий тип данных для обучения и тестирования моделей Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

https://habr.com/ru/articles/887290/

#llm #ai #benchmarking #finetuning #bleu #rouge #бенчмаркинг

Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку: Компании...

Хабр

[Перевод] Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов. Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов. В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.

https://habr.com/ru/articles/886198/

#ai_agent #benchmarking #ии_агенты #бенчмаркинг #llm

Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов....

Хабр

[Перевод] Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

https://habr.com/ru/articles/857754/

#LLM #бенчмарки #бенчмаркинг #HumanEval #DevQualityEval #CodeXGLUE #Aider #SWEbench #ClassEval #BigCodeBench

Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения. Серия публикаций о бенчмаркинге LLM Прочтите все...

Хабр

Как мы исследовали энергоэффективность инференса нейросетей на планшете

Современные гаджеты невозможно представить без AI-функций. Но у них есть цена, которую приходится «платить» конечному потребителю, в том числе более быстрая трата батарейки и перегрев устройства. В итоге производители электроники сталкиваются с дилеммой: фичи нужны, их нужно много, но без значительного ущерба для батарейки. Меня зовут Павел Буровский, я инженер-разработчик ПО искусственного интеллекта. Вместе с Яной Булиной, инженером отдела проектирования новых поколений технологического стека департамента ИИ в YADRO, мы измеряли энергоэффективность выполнения некоторых AI-функций планшета KVADRA. В статье расскажем, как организовали необходимые эксперименты, и покажем много графиков с результатами запусков на CPU, GPU и NPU.

https://habr.com/ru/companies/yadro/articles/855702/

#инференс #искусственный_интеллект #ai #функции #бенчмаркинг #планшет

Как мы исследовали энергоэффективность инференса нейросетей на планшете

Современные гаджеты невозможно представить без AI-функций. Размыть фон за спиной во время телеконференции, подавить шум от проходящих мимо коллег, вычесть «красные глаза» на фотографии — все это давно...

Хабр

Шлепа — Большой Русский Бенчмарк

Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмарк Что есть сейчас для оценки русскоязычных LLM Mera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут

https://habr.com/ru/articles/840176/

#llm #llama #mistral #бенчмаркинг

Шлепа — Большой Русский Бенчмарк

Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмарк Что есть сейчас для оценки русскоязычных LLM Mera - бенчмарк от Сбера,...

Хабр