«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций...

Хабр

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций...

Хабр

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

https://habr.com/ru/articles/923022/

#Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

Вольфрамовый кубик. В результате общения с хитрыми покупателями агент-лавочник Claudius пришёл к выводу и необходимости продавать подобный товар в офисном холодильнике. Микроблог Anthropic В феврале...

Хабр

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить. Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.

https://habr.com/ru/companies/bothub/articles/919366/

#нейросети #промты #deepseekr1 #gemini_25_pro #claude_37_sonnet #chatgpt_o1_pro #сравнение

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Введение На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью...

Хабр

Проверка текста на орфографию: рейтинг лучших AI-корректоров, часть 1

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации . Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи). Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей , чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя. (Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

https://habr.com/ru/companies/bothub/articles/913858/

#нейросети #корректура #проверка_орфографии #проверка_пунктуации #исправление_ошибок #deepseek_r1 #claude_37_sonnet #grok_3 #chatgpt_4o #chatgpt_41

Проверка текста на орфографию: рейтинг лучших AI-корректоров, часть 1

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала...

Хабр

Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно "красный" запрос.

https://habr.com/ru/articles/910832/

#llm #исскуственный_интеллект #ии #взлом #claude #claude_37_sonnet

Claude, есть пробитие: взламываем самую защищенную модель

В прошлой статье ( Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...) ) я поделился методом влияния на поведение AI-ассистентов с помощью...

Хабр

Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

Иногда этот мир слишком многословен. Помните случаи, когда вы открываете статью в «Википедии», а через три минуты осознаёте, что потеряли нить повествования? Нейросети, описанные в этом гайде, больше не допустят такого. Сокращение текста — не просто тренд, а настоящий мастхэв для журналистов, студентов, маркетологов и всех, кто хоть раз топил взгляд в 100-страничных инструкциях. 25 полезных промтов, от создания аннотаций до цепочек постов в телеграм‑канале, а также сильные стороны моделей Gemini-2.5-Pro, Grok-3, ChatGPT-4o, DeepSeek‑R1 и Claude-3.7-Sonnet в задачах сокращения текста — обо всём этом здесь. Забудьте о часах правок, когда ИИ превращает полотна букв в аккуратные саммари.

https://habr.com/ru/companies/bothub/articles/904572/

#нейросети #сокращение_текста #рерайт #промты #gemini_25_pro #claude_37_sonnet

Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

Иногда этот мир слишком многословен. Помните случаи, когда вы открываете статью в «Википедии», а через три минуты осознаёте, что потеряли нить повествования? Нейросети, описанные...

Хабр

Как наш проджект-менеджер шагнул к красоте и стройности за 3 часа и 2,76 $

Long story short: он собрал рабочий, визуально приятный и очень надежный сервис по планированию питания не будучи экспертом в создании продукта. Просто положился на нейронки. Хорошая новость в том, что вы тоже так можете. Плохая… Давайте посмотрим, будет ли плохая. Мотивацию опускаем. Всем нужен нормальный планировщик питания, чтобы наконец перестать есть за троих, наладить режим и начать помещаться в зеркале. Да, этот абзац поймут только представители царского дома Пухлорожденных. Изначально худых крестьян просим не беспокоиться. Вопрос в другом. Может ли человек с опытом разработки собрать годный сервис за 2,76 доллара? Кстати, откуда они взялись, эти несчастные почти три бакса? Нет, мы не купили ему пирожных. Все проще – это расходы на API от Anthropica. За эти деньги получился сервис, который не просто собирает меню на каждый день, но еще иллюстрирует все позиции не хуже вашей бабуленьки. Кроме денег понадобился Cursor с моделью Claude 3.7 Sonnet и немного терпения. Весь процесс есть на видео, если вы устали читать, но мы продолжим пользоваться буквенным кодом.

https://habr.com/ru/articles/895348/

#Приложение_за_3_часа #cursor #нейросети_для_разработчиков #claude_37_sonnet

Как наш проджект-менеджер шагнул к красоте и стройности за 3 часа и 2,76 $

Long story short: он собрал рабочий, визуально приятный и очень надежный сервис по планированию питания. Просто положился на нейронки. Хорошая новость в том, что вы тоже так можете. Плохая… Давайте...

Хабр

Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций

Последние месяцы рынок генеративного AI буквально кипит — одна за другой выходят мощные новинки. ChatGPT-4.5 от OpenAI , GROK-3 от X , свежие релизы от Google Gemini — и Anthropic не осталась в стороне, представив свою разработку: Claude 3.7 Sonnet. Как заявляют разработчики , новый AI не просто стал быстрее и умнее своих предшественников, он первым внедрил «гибридную модель рассуждений». В этой статье я хочу оценить способности новой модели и, разумеется, выяснить на практике, действительно ли Claude 3.7 Sonnet соответствует всему, что наобещали разработчики. Приятного прочтения)

https://habr.com/ru/companies/bothub/articles/894146/

#ai #искусственный_интеллект #claude_37_sonnet #claude_35 #deepseek_r1 #gpt

Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций

Последние месяцы рынок AI буквально кипит — одна за другой выходят мощные новинки. ChatGPT-4.5 от OpenAI , GROK-3 от X , свежие релизы от Google Gemini — и Anthropic не осталась в стороне, наконец...

Хабр

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

https://habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли...

Хабр