Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить. Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.

https://habr.com/ru/companies/bothub/articles/919366/

#нейросети #промты #deepseekr1 #gemini_25_pro #claude_37_sonnet #chatgpt_o1_pro #сравнение

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Введение На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью...

Хабр

Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке

Выбор LLM для синтеза тестов В этом обзоре мы обсудим сравнение различных современных языковых моделей (LLM) на задаче синтеза тестов. Все измерения проводились на внутреннем бенчмарке компании Explyt, который включает в себя как закрытые, так и open source проекты на языках Java и Kotlin, с использованием Spring и без. В качестве метрик используются формальные метрики, например, покрытие строк тестируемого класса/метода, число запускаемых тестов, число компиляционных ошибок, мутационное покрытие, так и LLM-as-judge метрики такие, как сложность/полезность/детальность тестовых сценариев, соответствие тестового метода сценарию на естественном языке и много других. Эксперименты проводились поверх Explyt Test плагина для IntelliJ Idea, к которому подключались разные модели и измерялось качество синтеза тестов на бенчмарке. Для более точной градации мы используем попарное сравнение разных моделей друг с другом. GPT-4o vs. GPT-4.1 Начнем с хорошего базового варианта gpt-4o и сравним ее с новой моделью gpt-4.1 от OpenAI. На нашем внутреннем бенчмарке gpt-4.1 генерирует более сложные, детальные и полезные сценарии (согласно LLM-as-judge метрикам) в отличие от ее предшественницы gpt-4o, которая в основном тестирует happy-path сценарии. Также gpt-4.1 лучше имплементирует запрошенное в сценариях поведение, метрика показывает: 0.86 vs 0.66 (c p-value = 0.0006). По формальным метрикам таким, как среднее покрытие кода (coverage) и число запускаемых тестовых классов, модели примерно похожи, без статистически значимого отличия. По цене gpt-4.1 дешевле, но так как она больше тратит токенов, то цена на нашем бенчмарке примерно совпадает с gpt-4o.

https://habr.com/ru/companies/explyt/articles/917640/

#explyt #языковые_модели #llm #llmмодели #ai_for_programmers #ml #ai #сравнение #генерация_тестов #автоматизация_тестирования

Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке

Привет, Хабр! В этой статье поделюсь интересными и иногда любопытными результатами сравнения современных языковых моделей (LLM) на задаче синтеза тестов. Все измерения проводились на внутреннем...

Хабр

Интеграция с ClickHouse: NiFi vs Airflow

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

https://habr.com/ru/companies/w_code/articles/917514/

#интеграция #сравнение #clickhouse #apache_airflow #nifi

Интеграция с ClickHouse: NiFi vs Airflow

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием...

Хабр

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере

https://habr.com/ru/companies/yadro/articles/912756/

#gpu #сервер #производительность #бенчмарки #сравнение #mlcommons

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к...

Хабр

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.

https://habr.com/ru/articles/917070/

#VLM #Gemini #ChatGPT #anthropic #mistral #llama #openai #vibecoding #qwen #сравнение

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное...

Хабр

Containerlab, как альтернатива Cisco Packet Tracer / PNETLab

Всем привет! В этой статье, я вам расскажу про свой личный опыт работы с виртуальными сетевыми лабораториями. Хочу начать своё повествование с небольшой предыстории — как я пришёл к теме.

https://habr.com/ru/articles/916662/

#pnetlab #containerlab #cisco #packet_tracer #альтернатива #docker #linux #yml #сравнение #yaml

Containerlab, как альтернатива Cisco Packet Tracer / PNETLab

Всем привет! В этой статье, я вам расскажу про свой личный опыт работы с виртуальными сетевыми лабораториями. Хочу начать своё повествование с небольшой предыстории — как я пришёл к теме. Начну с себя...

Хабр

Я больше не сравниваю. Я сверяю.
Сравнение — это про чужую жизнь. Сверка — про свою.

Я не смотрю, “где они”. Я смотрю: “я ближе к себе, чем был вчера?” Это мой единственный критерий. Всё остальное — шум.

#сравнение #путь #внимание #рост #внутренняясверка
https://t.me/tribute/app?startapp=srfZ
P.S. Made by a madman — Kirill Bereznev
https://t.me/tribute/app?startapp=srfZ

Tribute

Monetize content through donations and subscriptions. News: En — @TributeNewsEN Ru — @TributeNewsRU

Telegram

Что должен уметь AI-инструмент для генерации Java тестов

Всем привет! Это вопрос мы задаем себе каждый раз, когда надо и не хочется писать тесты. И еще меньше хочется искать и исправлять ошибки в том, что нагенерит AI-ассистент. В этой статье обсудим, на какие инструменты стоит обратить внимание, каким должен быть хороший инструмент для генерации Java тестов и насколько далека мечта от реальности. На кого будем смотреть?

https://habr.com/ru/companies/explyt/articles/909898/

#сравнение #ai #java #intellij_idea #intellij_idea_plugin #генерация_тестов #автоматизация_рутины #автоматизация_тестирования

Что должен уметь AI-инструмент для генерации Java тестов

Всем привет! Это вопрос мы задаем себе каждый раз, когда надо и не хочется писать тесты. И еще меньше хочется искать и исправлять ошибки в том, что нагенерит AI-ассистент. В этой статье обсудим, на...

Хабр

DATAREON VS Apache NiFi

Всем привет! На связи Никита Скирдин, программист 1С ИТ-интегратора «Белый код». Статья появилась как результат небольшого исследования для одного из наших клиентов. Заказчик обратился с вопросом выбора интеграционного решения. Здесь оставляю результаты.

https://habr.com/ru/companies/w_code/articles/909890/

#сравнение #шины_данных #esb #datareon #apache_nifi #интеграция #интеграция_сервисов

DATAREON VS Apache NiFi

Всем привет! На связи Никита Скирдин, программист 1С ИТ-интегратора «Белый код». Статья появилась как результат небольшого исследования для одного из наших клиентов. Заказчик обратился с вопросом...

Хабр

Способы улучшить жизнь: ИИ-агенты в разработке

Привет! Я Кирилл Пронин, разработчик PIX RPA из PIX Robotics , а я Александр Сулейкин , Founder DUC Technologies , и сегодня мы бы хотели поговорить о популярном – «ИИ-агенты в разработке и как они могут улучшить нашу жизнь». Мы не будем писать миллион слов про ChatGPT и «скопируй код и вставь его в блок текста на сайте», вместо этого попробуем выделить самые лучшие, простые, open-source способы встроить ИИ в ваш IDE и попробовать улучшить жизнь каждого разработчика, повысить качество кода и внедрить тестирование в Ваш огромный проект.

https://habr.com/ru/articles/895792/

#искусственный_интеллект #ии_помощник #ии_агент #помощь_в_разработке #разработка #исследования_в_ит #ide #настройка #ии_ассистент #сравнение

Способы улучшить жизнь: ИИ-агенты в разработке

Привет! Я Кирилл Пронин, разработчик PIX RPA из PIX Robotics , а я Александр Сулейкин , Founder DUC Technologies , и сегодня мы бы хотели поговорить о популярном – «ИИ-агенты в разработке и как они...

Хабр