Последний экзамен человечества: насколько «умен» ИИ?

Отличительной особенностью научного подхода является отсутствие веры на слово. Любое утверждение не может считаться фактом, пока не будет установлена его истинность. А для этого необходимо задать множество вопросов, провести множество измерений, тестов, моделирований и т. д. Все, что есть во Вселенной, осязаемое или нет, может быть в той или иной степени измерено. Не исключением являются знания, которые проверяются как в школах, так и в университетах с помощью специально составленных экзаменов. С появлением генеративных ИИ не утихаю дебаты об уровне их знаний и достоверности той информации, которую они выдают на запрос. Те тесты, которые ранее считались показательными, более не могут полноценно оценить ИИ. По этой причине ученые из Техасского университета A&M (Колледж-Стейшен, Техас, США) разработали «Последний экзамен человечества» - всеобъемлющий текст знаний по различным направлениям для ИИ. Из каких вопросов состоял тест, и как себя показали самые популярные генеративные ИИ? Ответы на эти вопросы мы найдем в докладе ученых.

https://habr.com/ru/companies/ua-hosting/articles/1011190/

#ии #большие_языковые_модели #знания #данные #рассуждения #оценка_знаний #экзамен #gpt #open_ai #claude

Последний экзамен человечества: насколько «умен» ИИ?

Отличительной особенностью научного подхода является отсутствие веры на слово. Любое утверждение не может считаться фактом, пока не будет установлена его истинность. А для этого необходимо задать...

Хабр

OpenAI выпустила ChatGPT 5.4

Не успели мы опомниться от предыдущего релиза пару дней назад, как 5 марта 2026 года OpenAI официально представила нам уже 5.4 в ChatGPT, API и Codex. Внутри самого ChatGPT модель идет как GPT-5.4 Thinking, так и в GPT-5.4 Pro. Нам дают улучшенную версию для набора задач, где собрать фактуру, удержать контекст, пройтись по инструментам, проверить себя и выдать результат. Именно на это OpenAI делает основной акцент в официальном анонсе. Но, как обычно, одно дело - красивый релизный пост, другое - что из этого реально работает. Давайте попробуем разобраться. Если же вы сами хотите покопаться в новой модели и протестировать ее на разных задачах, обратите внимание на

https://habr.com/ru/companies/paybeam/articles/1007996/

#чат_гпт #чатгпт #chatgpt #chat_gpt #openai #open_ai

OpenAI выпустила ChatGPT 5.4

Не успели мы опомниться от предыдущего релиза пару дней назад, как 5 марта 2026 года OpenAI официально представила нам уже 5.4 в ChatGPT, API и Codex. Внутри самого ChatGPT модель идет как GPT-5.4...

Хабр

ИИ-геополитика 2026: смерть аутсорсинга, 1 ГВт для OpenAI и китайский вызов от Alibaba

На прошлой неделе в Нью-Дели завершился India AI Impact Summit 2026 . Это событие стало маркером тектонического сдвига: фокус ИИ-индустрии окончательно смещается в сторону Глобального Юга. Пока регуляторы в ЕС и США буксуют в судебных исках, Индия превращается из «мировой бэк-офис фермы» в крупнейший полигон для обкатки ИИ-инфраструктуры.

https://habr.com/ru/companies/finam_broker/articles/1003182/

#искусственный_интеллект #будущее_it #индия #open_source #aliba #microsoft #open_ai #llm #llmмодели #обучение_нейронных_сетей

ИИ-геополитика 2026: смерть аутсорсинга, 1 ГВт для OpenAI и китайский вызов от Alibaba

На прошлой неделе в Нью-Дели завершился India AI Impact Summit 2026 . Это событие стало маркером тектонического сдвига: фокус ИИ-индустрии окончательно смещается в сторону Глобального Юга. Пока...

Хабр

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов...

Хабр

В истории ни один стартап не работал с убытками в таких масштабах

The Information на основе внутренних документов OpenAI, компания ожидает убыток $14 млрд в 2026 году , что втрое больше, чем в 2025. Кумулятивные потери за 2023–2028 составят $44 млрд , после чего в 2029 планируется выход на прибыль $14 млрд при выручке $100 млрд. Deutsche Bank посчитал жёстче: отрицательный свободный денежный поток $143 млрд между 2024 и 2029 годами. Аналитики пишут: «Ни один стартап в истории не работал с убытками в таких масштабах. Мы находимся на абсолютно неизведанной территории». Что там с Sora. По оценкам Forbes, генерация одного 10-секундного видео обходится в $1.30. При текущих объёмах это $15 млн в день , или $5.4 млрд в год. Глава Sora Билл Пиблз публично признал, что «экономика сейчас абсолютно неустойчива». Добрый вечер Доля ChatGPT упала с 87% до 68% за год. Google Gemini вырос с 5.4% до 18.2%. В enterprise ещё хуже: OpenAI потерял половину рынка (с 50% в 2023 до 27% сейчас), а Claude от Anthropic теперь лидер с 32%. Как сказал бывший управляющий Fidelity Джордж Нобл на прошлой неделе: «OpenAI разваливается на глазах в реальном времени. Я наблюдал крах компаний десятилетиями. Здесь все тревожные признаки». Обсудить

https://habr.com/ru/articles/987876/

#open_ai #альтман

В истории ни один стартап не работал с убытками в таких масштабах

The Information на основе внутренних документов OpenAI, компания ожидает убыток  $14 млрд в 2026 году , что втрое больше, чем в 2025. Кумулятивные потери за 2023–2028 составят  $44 млрд ,...

Хабр

Три сценария, если AI окажется пузырем

Привет! С вами Марина Ермак, старший аналитик Futureproof. Каждый раз, когда вы открываете ChatGPT, где-то в мире жужжит дата-центр, построенный на кредитные деньги. Вокруг этой инфраструктуры уже сложилась сложная финансовая конструкция — и в последние месяцы всё чаще звучит вопрос: а не надуваем ли мы новый пузырь? Давайте аккуратно разберёмся, что происходит с рынком, почему аналитики спорят о пузыре вокруг AI-инфраструктуры, и главное — что это может означать для бизнеса, в том числе в России. И в конце рассмотрим три возможных сценария развития событий и no-regret-moves.

https://habr.com/ru/articles/985916/

#AIbubble #сценарии_ИИ #open_ai #nvidia

Три сценария, если AI окажется пузырем

Привет! С вами Марина Ермак, старший аналитик Futureproof. Каждый раз, когда вы открываете ChatGPT, где-то в мире жужжит дата-центр, построенный на кредитные деньги. Вокруг этой инфраструктуры уже...

Хабр
The Al Bubble Is A Lot Worse Than You Think

YouTube

[Перевод] GDPval: измерение производительности AI-моделей на реальных задачах

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП. Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают приземлить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.

https://habr.com/ru/articles/962702/

#ai #llm #openai #gpt #genai #benchmark #benchmarking #chatgpt #open_ai

GDPval: измерение производительности AI-моделей на реальных задачах

Мы представляем GDPval — новую метрику, которая оценивает производительность моделей на экономически значимых, прикладных задачах из 44 профессиональных областей. Статья | evals.openai.com Наша миссия...

Хабр
LLM Hub: Large Language Models Made Easy in Galaxy

Access powerful Large Language Models in Galaxy easily

LLM Hub: Large Language Models Made Easy in Galaxy

Access powerful Large Language Models in Galaxy easily