Попросил нейросети ChatGPT, DeepSeek и GigaChat собрать игровой ПК за 100 000 рублей. Кто справился лучше?

Не так давно мы провели эксперимент: скормили нейросети сотню сборок ПК с Хабра и попросили найти типичные ошибки. Получилось занятно, потому что проблемы обнаружились почти в каждой второй конфигурации. Тут вам и дисбаланс процессора и видеокарты, и устаревшее железо, и видеокарты, у которых уже есть замена за те же деньги, и чего только не. И это на Хабре, где народ, в общем говоря, в теме. Поэтому у нас возник логичный вопрос: а что, если не проверять чужие сборки, а попросить нейросети

https://habr.com/ru/companies/x-com/articles/1017408/

#xcomshop #сборка_пк #нейросети #chatgpt #deepseek #gigachat

Попросил нейросети ChatGPT, DeepSeek и GigaChat собрать игровой ПК за 100 000 рублей. Кто справился лучше?

Три нейросети, один бюджет, ноль гарантий)) Не так давно мы провели эксперимент: скормили нейросети сотню сборок ПК с Хабра и попросили найти типичные ошибки. Получилось занятно, потому что проблемы...

Хабр

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт. Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях. Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи . Интерактивные результаты – на сайте . Детали по исследованию

https://habr.com/ru/articles/1016648/

#исследование #бенчмарки #ии #gigachat #yandexgpt

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый.  GPQA Diamond  тестирует PhD-знания.  Lexometrica  проверяет фактическую точность.  LLM Persuasion Benchmark  –...

Хабр

GigaChat 3 Ultra от Сбера, OpenAI закрыла Sora, ARC-AGI-3 сломал все модели, ИИ-агенты взломали корпоративные системы

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Неделя вышла насыщенной: OpenAI закрывает Sora, Сбер открывает свою MoE-модель, новые Suno v5.5 и Lyria 3 Pro. Исследование от Anthropic, обновления Claude и взлом корпоративной сети ИИ-агентами. Всё самое важное — в одном месте. Поехали! Читать дайджест →

https://habr.com/ru/companies/timeweb/articles/1016146/

#ии #дайджест #gigachat #openai #sora #anthropic #claude_code #новости #нейросети #timeweb_дайджест

GigaChat 3 Ultra от Сбера, OpenAI закрыла Sora, ARC-AGI-3 сломал все модели, ИИ-агенты взломали корпоративные системы

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Я Вандер , и каждую неделю я обозреваю новости о нейросетях и...

Хабр

Россия — третий полюс мирового AI. Агентов запускаем на Raspberry Pi

a16z включил Россию в тройку AI-держав - наряду с Западом и Китаем. Яндекс Браузер в топ-10 мировых AI-приложений. GigaChat дебютировал в глобальном рейтинге. А потом смотришь на цифры изнутри - и видишь 48-е место, GPU-голод и агентов на Raspberry Pi.

https://habr.com/ru/articles/1015782/

#AI #Россия #суверенный_ИИ #GigaChat #YandexGPT #GPU #a16z

Россия — третий полюс мирового AI. Агентов запускаем на Raspberry Pi

a16z - один из крупнейших венчурных фондов планеты - выпустил свой ежегодный рейтинг Top 100 AI Apps. И впервые в истории зафиксировал Россию как отдельный полюс на глобальной AI-карте. Три полюса:...

Хабр

ГигаЧат стал умнее и быстрее! Встречайте GigaChat Ultra: нейросеть теперь обладает долгосрочной памятью, запоминает ваши интересы и работает вдвое эффективнее. Модель уже в открытом доступе и превосходит мировые аналоги в задачах на русском языке. Пробуйте прямо сейчас! 🚀

#GigaChat #нейрончик

GigaChat-3.1: Большое обновление больших моделей

В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT. Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.

https://habr.com/ru/companies/sberbank/articles/1014146/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1014146

#opensource #llm #gigachat #gigachat_31_ultra

GigaChat-3.1: Большое обновление больших моделей

Салют, хабр! В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня...

Хабр

GigaChat-3.1: Большое обновление больших моделей

В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT. Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.

https://habr.com/ru/companies/sberbank/articles/1014146/

#opensource #llm #gigachat #gigachat_31_ultra

GigaChat-3.1: Большое обновление больших моделей

Салют, хабр! В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня...

Хабр

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Сравнил полнотекстовый поиск PostgreSQL ( tsvector / tsquery + GIN-индекс) с семантическим поиском через pgvector ( cosine distance ) на датасете из 10 019 товарных категорий Ozon. Три embedding-модели: GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API) Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на GPU) text-embedding-3-small (OpenAI, 1536-мерные, API) Прогнал 18 запросов в пяти категориях: синонимы и сленг, intent-запросы в свободной форме, подарочная тематика, cross-lingual (EN-запросы к RU-данным), абстрактные формулировки. Замерил латентность и top-5 с cosine similarity score. Разбор каждого запроса, таблицы и код — под катом.

https://habr.com/ru/articles/1010200/

#искусственный_интеллект #gigachat #openai #qwen #embeddings

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

1. Семантический поиск: поиск по смыслу Идея семантического поиска: представить и документы, и запрос в виде числовых векторов (embeddings) в едином пространстве. Близкие по смыслу тексты будут иметь...

Хабр

Перспективы национальной LLM. Личное мнение

Полностью самостоятельная разработка LLM дело дорогое, требующее высококвалифицированных кадров (математиков и инженеров), высокопроизводительного оборудования (графических ускорителей, быстрой памяти и процессоров), и, самое главное, наличие школы. Часто эффективные менеджеры недооценивают необходимость опыта в разработке и производстве чего-либо. Наличие желания и денег не всегда приводит к нужному результату. В этой статье я рассмотрю возможное развитие национальной LLM со своей точки зрения, которая, как вы понимаете, может быть ошибочной, либо меняться под давлением обстоятельств.

https://habr.com/ru/articles/1006896/

#искусственный_интеллект #gigachat #алиса #сбер #yandexgpt

Перспективы национальной LLM. Личное мнение

Полностью самостоятельная разработка LLM дело дорогое, требующее высококвалифицированных кадров (математиков и инженеров), высокопроизводительного оборудования (графических ускорителей, быстрой памяти...

Хабр

Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»

Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под надзором «Скорости» более двадцати веб-сервисов, каждый из которых должен работать быстро и точно. А значит, нужна система мониторинга производительности с гибкими настройками, чуткой реакцией на изменения и оперативными сообщениями о проблемах. В статье расскажем, зачем мы нормируем метрики логарифмами, как скрипт превращает данные из ClickHouse в алёрты и как удобнее отображать данные. Словом, поделимся нашим опытом контроля производительности веб-ресурсов.

https://habr.com/ru/companies/sberdevices/articles/1006020/

#sber #вебресурсы #Grafana #ClickHouse #GigaChat #фронтенд #производительность #Core_Web_Vitals

Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»

Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под...

Хабр