Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт. Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях. Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи . Интерактивные результаты – на сайте . Детали по исследованию

https://habr.com/ru/articles/1016648/

#исследование #бенчмарки #ии #gigachat #yandexgpt

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый.  GPQA Diamond  тестирует PhD-знания.  Lexometrica  проверяет фактическую точность.  LLM Persuasion Benchmark  –...

Хабр

RAG-бот на YandexGPT без Python и оркестраторов. Кейс внедрения «Яндекс Агента» в медицине

Автоматизация клиентского сервиса в медицине — это всегда баланс между точностью данных и скоростью ответа. Рассказываем, как мы создавали для фармацевтической компании «Буарон» умного помощника на базе Yandex Cloud Agent, который обеспечивает круглосуточную обработку запросов и использует связку PHP и WordPress. Есть два фактора, которые гарантированно дают большую нагрузку на службу поддержки портала – это сложный продукт и широкий ассортимент. Фармацевтическая компания «Буарон» объединила оба. «Буарон» (Boiron) – один из мировых лидеров в производстве лекарств на основе природных субстанций, который в России представляет 130 гомеопатических монопрепаратов и 10 комплексных лекарств. База знаний включает в себя не только описания отдельных средств, но и комплексные решения, такие как «ЛОР-протокол», что требует от ИИ-ассистента высокой точности при сопоставлении запроса пользователя с нужным разделом. Портал компании заключает в себе огромный объем информации, в которой посетителю непросто ориентироваться. В год пользователи оставляют на сайте более 300 000 запросов – это больше 800 в сутки, при этом ответы не всегда находились, а часть обращений терялась или требовала личного участия специалистов. Перед нами в QSOFT стояла задача автоматизировать обработку пользовательских запросов на сайте о клинической гомеопатии, снизить нагрузку на специалистов и сократить число пропущенных обращений. Для этого было решено создать умного помощника на базе Yandex Cloud Agent.

https://habr.com/ru/companies/qsoft/articles/1015934/

#yandexgpt #чатбот #rag_ai #php #wordpress #llm #нейросети

RAG-бот на YandexGPT без Python и оркестраторов. Кейс внедрения «Яндекс Агента» в медицине

Автоматизация клиентского сервиса в медицине — это всегда баланс между точностью данных и скоростью ответа. Рассказываем, как мы создавали для фармацевтической компании «Буарон» умного помощника на...

Хабр

Россия — третий полюс мирового AI. Агентов запускаем на Raspberry Pi

a16z включил Россию в тройку AI-держав - наряду с Западом и Китаем. Яндекс Браузер в топ-10 мировых AI-приложений. GigaChat дебютировал в глобальном рейтинге. А потом смотришь на цифры изнутри - и видишь 48-е место, GPU-голод и агентов на Raspberry Pi.

https://habr.com/ru/articles/1015782/

#AI #Россия #суверенный_ИИ #GigaChat #YandexGPT #GPU #a16z

Россия — третий полюс мирового AI. Агентов запускаем на Raspberry Pi

a16z - один из крупнейших венчурных фондов планеты - выпустил свой ежегодный рейтинг Top 100 AI Apps. И впервые в истории зафиксировал Россию как отдельный полюс на глобальной AI-карте. Три полюса:...

Хабр

Мы протестировали 33 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Каждый производитель LLM заявляет о лидерстве. OpenAI – «самая мощная модель». Anthropic – «самая безопасная». Яндекс – «лучше всех понимает русский». Проверить эти заявления, не потратив месяц на ручное тестирование, – задача нетривиальная. Мы решили попробовать.

https://habr.com/ru/articles/1010568/

#Исследование #ИИ #yandexgpt #deepseek

Мы протестировали 33 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Каждый производитель LLM заявляет о лидерстве. OpenAI – «самая мощная модель». Anthropic – «самая безопасная». Яндекс – «лучше всех понимает русский». Проверить эти заявления, не потратив месяц на...

Хабр

Перспективы национальной LLM. Личное мнение

Полностью самостоятельная разработка LLM дело дорогое, требующее высококвалифицированных кадров (математиков и инженеров), высокопроизводительного оборудования (графических ускорителей, быстрой памяти и процессоров), и, самое главное, наличие школы. Часто эффективные менеджеры недооценивают необходимость опыта в разработке и производстве чего-либо. Наличие желания и денег не всегда приводит к нужному результату. В этой статье я рассмотрю возможное развитие национальной LLM со своей точки зрения, которая, как вы понимаете, может быть ошибочной, либо меняться под давлением обстоятельств.

https://habr.com/ru/articles/1006896/

#искусственный_интеллект #gigachat #алиса #сбер #yandexgpt

Перспективы национальной LLM. Личное мнение

Полностью самостоятельная разработка LLM дело дорогое, требующее высококвалифицированных кадров (математиков и инженеров), высокопроизводительного оборудования (графических ускорителей, быстрой памяти...

Хабр

RAG на PHP + Qdrant: быстрый MVP для внутренней базы знаний

RAG на PHP - звучит непривычно. Делюсь опытом построения чат-бота для поиска по внутренней базе документов: Symfony, Qdrant с гибридным поиском, YandexGPT для embedding и генерации ответов. Внутри — готовый код, подводные камни чанкинга и советы, которые сэкономят вам время.

https://habr.com/ru/articles/1001156/

#rag #retrieval_augmented_generation #llm #qdrant #yandexgpt #php #rag_pipeline #neuron

RAG на PHP + Qdrant: быстрый MVP для внутренней базы знаний

В этой статье покажу, как мы собрали RAG-систему на PHP и Qdrant: выбрали векторную базу и LLM, настроили гибридный поиск и реализовали чат-бота на Symfony с использованием PHP фреймворка Neuron AI. К...

Хабр

Подключаем российские AI-сервисы к OpenClaw: GigaChat, YandexGPT и Yandex 360

Интегрируем российские AI-сервисы (GigaChat от Сбера, YandexGPT и Yandex 360) с OpenClaw — open-source платформой для AI-агентов. Создаём русскоязычных агентов, подключаем CalDAV календарь и Yandex Disk. Все с нуля, с кодом и troubleshooting.

https://habr.com/ru/articles/996966/

#openclaw #gigachat #yandexgpt #yandex_360 #ai_агенты #chatbot #claude #llm #telegram_bot #multiagent

Подключаем российские AI-сервисы к OpenClaw: GigaChat, YandexGPT и Yandex 360

Подключаем российские AI-сервисы к OpenClaw: GigaChat, YandexGPT и Yandex 360 TL;DR Собрал пять агентов на базе OpenClaw: Jarvis (Claude Sonnet 4.5), Coder и Planner (Claude Opus 4.6), Ruslan...

Хабр

Юрист нашёл в договоре 32 проблемы, AI — 41. Разбираю, кто что пропустил

Как детекторы на основе судебной практики довели AI-анализатор до 41 находки при 0 ложных срабатываний. Как анализ работы юриста превратился в 23 новых проверки. И почему юрист до сих пор незаменим — но уже в другом.

https://habr.com/ru/articles/994794/

#ai #llm #nlp #claude #yandexgpt #юридический_анализ #анализ_договоров #legaltech #автоматизация #рискменеджмент

Юрист нашёл в договоре 32 проблемы, AI — 41. Разбираю, кто что пропустил

Как детекторы на основе судебной практики довели AI-анализатор до 41 находки при 0 ложных срабатываний. Как анализ работы юриста превратился в 23 новых проверки. И почему юрист до сих пор незаменим —...

Хабр

Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

Ещё пару лет назад промпт-инжиниринг выглядел как подбор удачного заклинания: "а давай добавим think step by step , "а давай попросим быть аккуратнее" и о приправим xml-тегами". Сегодня это типовая задача оптимизации в условиях чёрного ящика . Уже 2026 год и современные LLM одновременно:

https://habr.com/ru/articles/994624/

#promptengineering #prompt_tuning #prompt_library #prompting #gemini #claude #chatgpt #deepseek #gigachat #yandexgpt

Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

Ещё пару лет назад промпт-инжиниринг выглядел как подбор удачного заклинания: "а давай добавим think step by step , "а давай попросим быть аккуратнее" и о приправим xml-тегами". Сегодня это типовая...

Хабр

Карта российских ИИ-платформ для аналитика

GigaCode vs SourceCraft Code Assistant: что выбрать аналитику в 2025? Сравнил две российские AI-IDE по критериям, важным не разработчику, а аналитику: работа с документами, контекстное окно, агентный режим, бесплатные квоты. Плюс пошаговые инструкции — от регистрации до первого запроса в чате. SourceCraft: 3000 предложений + 1000 чат-запросов в неделю бесплатно, лимиты прозрачны. GigaCode: бесплатен для пользователей GitVerse, квоты не публикуются. Бонус: таблица соответствия концепций Roo Code → российские платформы. Для тех, кто читал мои предыдущие статьи и хочет применить подходы на одобренном стеке.

https://habr.com/ru/articles/992872/

#GigaCode #SourceCraft #YandexGPT #GigaChat #AIассистент #импортозамещение #бизнесанализ #prompt_engineering

Карта российских ИИ-платформ для аналитика

В прошлых комментариях меня спросили: зачем предлагать людям возиться с установкой Roo Code и openrouter (который не оплатить просто так), если можно предложить Sourcecraft с бесплатными квотами? В...

Хабр