Mastodawn

Сравнение нейросетей в генерациях: Claude vs ChatGPT vs Gemini в различных сферах

Новые модели выходят практически каждый день. За последние два месяца мы увидели релизы от Qwen, OpenAI, Anthropic и Google. Очень ждали DeepSeek, но его пока не слышно и не видно. В своих прошлых материалах я сравнивал последние версии моделей крупных компаний в конкретных сферах: программирование и генерация текста. Сегодняшняя статья продолжит этот цикл. По-хорошему, этот материал должен был выйти до сравнений в узких сферах, потому что сегодня я планирую сравнить Gemini 3.1 Pro, ChatGPT 5.4 и Claude Opus 4.6 сразу в нескольких дисциплинах. Сделать, так сказать, общее сравнение. Сразу предупрежу: никаких межгалактических заданий вы тут не увидите. Моя цель куда приземленнее – проверить модели в рутинных задачах, с которыми они сталкиваются каждый день. Мне это нужно, чтобы понять, какой модели сейчас стоит отдать предпочтение. В расчет пойдет качество выполнения (оцененное мной), а также затраты в денежном эквиваленте. На этом с предисловием можно закончить. Принимайте стратегически удобное положение, а я начинаю.

https://habr.com/ru/companies/bothub/articles/1011410/

#AI #ИИ #нейросеть #chatgpt #claude_opus #gemini #генерация_текста #математика #программирование

Сравнение нейросетей в генерациях: Claude vs ChatGPT vs Gemini в различных сферах

Новые модели выходят практически каждый день. За последние два месяца мы увидели релизы от Qwen, OpenAI, Anthropic и Google. Очень ждали DeepSeek, но его пока не слышно и не видно. В своих прошлых...

Хабр

Habr Feb 28

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше?

Этот месяц оказался достаточно насыщенным в плане новых моделей. Пока одни разработчики только анонсировали обновления, другие уже успели выкатить полноценные релизы. В итоге февраль подарил нам сразу несколько громких новинок: Gemini 3.1 Pro, ChatGPT 5.3 Codex, Nano Banana 2, Seedance 2.0 – и, конечно, главных для сегодняшней статьи: Claude Sonnet 4.6 и Claude Opus 4.6 . Обе модели от Anthropic я уже успел поюзать достаточно, чтобы составить о них какое-то мнение. Именно поэтому решил не держать тесты при себе, а оформить их в сравнение – как это уже было в прошлой статье про ChatGPT 5.2 Pro и Gemini 3.1 Pro. Сразу скажу: никакого официального крупного бенчмарка здесь не будет . Это сугубо личный эксперимент, затеянный из собственного любопытства. Тем не менее, если вы сами выбираете между этими двумя моделями или просто следите за развитием ИИ, возможно, статья поможет вам подметить что-то полезное: плюсы, минусы, неочевидные нюансы каждой из версий. Что ж, принимайте стратегически удобное положение – я приступаю.

https://habr.com/ru/companies/bothub/articles/1005034/

#Claude #claude_sonnet #Claude_opus #ИИ #AI #нейросеть #gemini

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше?

Этот месяц оказался достаточно насыщенным в плане новых моделей. Пока одни разработчики только анонсировали обновления, другие уже успели выкатить полноценные релизы. В итоге февраль подарил нам сразу...

Хабр

Habr Feb 20

[Перевод] На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое невозможно закрывать глаза. Поэтому я написал Context Lens — трассировщик контекста, перехватывающий вызовы LLM API, чтобы показать, что же на самом деле находится в окне контекста с разбивкой по этапам. Я подключил его к четырём инструментам кодинга и дал им одну и ту же задачу. Результаты оказались настолько разными, что я решил написать об этом статью. Вопрос При работе с этими моделями мы платим за токены. Токены — это довольно сложная тема. По сути, это блоки информации; 1 токен приблизительно равен 4 символам английского текста. Чем больше токенов передаётся в модель, тем больше мы платим. Но важнее то, что токены составляют контекст модели. Контекст — это всё, что есть у модели при генерации ответа, своего рода её кратковременная память. Как и у людей, она ограничена. И чем больше нужно запоминать, тем хуже мы справляемся при ответе на детализированный вопрос. Итак, нам нужно быть аккуратными с нашим окном контекста, а для построения этого окна используются токены. Я задался вопросом: как инструменты справляются с этим ограничением? Насколько умно они его обрабатывают?

https://habr.com/ru/articles/1001866/

#claude_opus #claude_sonnet #codex #gemini #кодингагенты #иипомощники

На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое...

Хабр

أخبار التقنية Nov 25

أنثروبيك تكشف عن نموذج Claude Opus 4.5.. نموذج متقدّم للبرمجة والوكلاء الأذكياء

أعلنت شركة أنثروبيك نموذجها الجديد ، الذي تقدّمه بوصفه “أفضل نموذج في العالم
للبرمجة والوكلاء”، مؤكدةً أنه يتفوّق في عدة فئات من قدرات البرمجة حتى على أحدث
نماذج جوجل .

ويأتي هذا الإطلاق مع أن النموذج لم يحقق بعدُ انتشارًا واسعًا على منصة LMArena
المُخصصة لتقييم نماذج الذكاء الاصطناعي، إلى جانب استمرار التحديات الأمنية التي
يعانيها معظم وكلاء الذكاء الاصطناعي، التي يمكنها تنفيذ بعض المهام نيابةً عن
المستخدم.

وتقول الشركة إن Opus 4.5 يُقدّم تحسينات كبيرة مقارنةً بالإصدار السابق، خاصةً في
البحث العميق، والتعامل مع الشرائح التقديمية وجداول البيانات. وأعلنت أنثروبيك
أدوات جديدة ضمن نماذج Claude Code الموجّه للمبرمجين، بالإضافة إلى تحسينات في
تطبيقات Claude الموجهة للمستخدمين، التي تهدف إلى دعم الوكلاء، وفتح طرق جديدة
لاستخدام Claude داخل تطبيق Excel ومتصفح كروم وأجهزة الحاسوب المكتبية. ويتوفر
النموذج اليوم عبر تطبيقات الشركة وواجهات البرمجة، إضافةً إلى منصات الخدمات
السحابية.

وفي خطوة لمعالجة أبرز مخاوف مجتمع التقنية تجاه الوكلاء الأذكياء، ركزت أنثروبيك
على قضايا الاستخدامات الخبيثة وهجمات حقن الأوامر (Prompt Injection)، التي تعتمد
على إخفاء تعليمات ضارة داخل مواقع أو مصادر بيانات ليتجاوز النظام آليات الأمان
ويقدّم استجابات مضللة أو حساسة، مستغلة الصلاحيات الواسعة الممنوحة للوكلاء.

وتؤكد الشركة أن Opus 4.5 “يصعب تضليله” مقارنةً بأي نموذج متقدم آخر، لكنها تقر
بأن النظام غير “مُحصّن” بالكامل، وأن عددًا من الهجمات ما زال قادرًا على اختراقه.

وتشير الشركة أيضًا إلى إضافة اختبارات داخلية وخارجية جديدة تقيس قدرة النموذج على
مقاومة الاستخدامات الخبيثة وهجمات الحقن في بيئات البرمجة واستخدام المتصفح
والحاسوب.

وفي أحد التقييمات الخاصة بالبرمجة، الذي يفحص استجابة النموذج لـ150 طلبًا ضارًا
محظورًا وفق سياسة أنثروبيك، نجح Opus 4.5 في رفض 100% من هذه الطلبات، وفقًا
للشركة.

وفي المقابل، كانت نتائج الأمان أضعف عند اختبار النموذج ضمن بيئة البرمجة Claude
Code؛ فعند تقييم قدرته على رفض طلبات مثل إنشاء برمجيات خبيثة، أو كتابة شفرات
لهجمات DDoS التدميرية، أو تطوير أدوات مراقبة غير مشروعة، لم تتجاوز نسبة الرفض
78%.

وتعكس هذه النتائج – حتى مع التقدم الملحوظ – استمرار التحدّي الكبير أمام أنثروبيك
وسائر المنافسين، وهو بناء نماذج قوية وآمنة، وقادرة على الإنجاز دون أن تكون عرضة
للاختراق والاستغلال الخبيث.

الوسوم
نسخ الرابط تم نسخ الرابط

🔗 https://aitnews.com/2025/11/25/أنثروبيك-تكشف-عن-نموذج-claude-opus-4-5-نموذج-متقدّ/

#Claude_Opus #أنثروبيك #الذكاء_الاصطناعي

Habr Sep 24

[Перевод] Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на умение выстраивать собственный набор инструментов для продуктивности. Модель выдала целый арсенал CLI-утилит в духе Unix, но… отказалась ими пользоваться. Почему так случилось и что это говорит о будущем кодинг-агентов — разбираем в статье.

https://habr.com/ru/companies/magnus-tech/articles/949536/

#искусственный_интеллект #машинное_обучение #самосовершенствование_ИИ #кодингагенты #инструменты_разработчика #GPT5 #claude_opus #ииагенты_для_разработки

Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на...

Хабр