Русский культурный код как оценка генеративных моделей

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу . Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки разных моделей рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.

https://habr.com/ru/articles/1011192/

#искусственный_интеллект #генерация_изображений #diffusion_models #генерация_картинок #изображения #nano_banana #nano_banana_pro #gemini_flash #bytedance #riverflow

Русский культурный код как оценка генеративных моделей

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не...

Хабр

Gemini 3 Flash против Pro: Google забрал 2025 год? Сравнение архитектуры, тестов и креатива

На рынке LLM сейчас такое творится, что даже следить устаёшь. Релизы летят как горячие пирожки, только успевай жевать. Позавчера все носились с Claude, вчера с Gemini, сегодня весь интернет ждал GPT 5.2 как второго пришествия. А Google такой: "Подержи моё пиво". Пока всё внимание было приковано к OpenAI, Google тихо выкатил Gemini 3 Flash. Без громких презентаций, просто намёк в X и готово. Тайминг идеальный. Вообще Google в этом году напоминает шахматиста, который пока все смотрят на ферзя, спокойно забирает фигуры по краям доски. Ещё и Nano Banana 2 Flash на подходе. Раньше Gemini воспринимался как крепкий середнячок, хорош, но не универсален. Сейчас компания закрывает направление за направлением, и конкурентам становится тесновато. В конце года Google выпустил Gemini 3 Pro, заточенный под сложную аналитику. Мы тогда разбирали его подробно, и в комментариях всплыла интересная штука: после выхода Flash народ начал жаловаться, что Pro стала отвечать хуже. То ли ресурсы перекинули, то ли просто показалось, то ли что-то подкрутили на бэкенде. Ладно, не будем гадать. Сегодня тестируем сами и смотрим, что там на самом деле. Приятного чтения, поехали!

https://habr.com/ru/companies/bothub/articles/981818/

#ai #нейросети #машинное+обучение #google #openai #gpt #gemini_flash #gemini_pro #claude #anthropic

Gemini 3 Flash против Pro: Google забрал 2025 год? Сравнение архитектуры, тестов и креатива

На рынке LLM сейчас такое творится, что даже следить устаёшь. Релизы летят как горячие пирожки, только успевай жевать. Позавчера все носились с Claude, вчера с Gemini, сегодня весь интернет ждал GPT...

Хабр

Обзор Gemini 3 Flash: как Google перехватывает инициативу на рынке ИИ в 2025 году

Рынок больших языковых моделей сейчас находится в состоянии постоянного кипения. Новые релизы выходят настолько часто, что обсуждение очередного обновления едва успевает набрать обороты, как его уже перебивает следующий анонс. Только недавно индустрия обсуждала выход новых версий Claude Opus и Sonnet, новую версию Geminiб затем внимание резко сместилось к GPT 5.2, от которого ожидали громкого шага вперёд. Казалось, именно этот релиз должен был задать тон концу года и стать главным инфоповодом. Но Google выбрал другой момент и сыграл иначе. На фоне всеобщего внимания к OpenAI компания внезапно выпускает Gemini 3 Flash. Причём делает это без лишнего шума, но с очень точным расчётом. Компания даже успела намекнуть на выход в X.

https://habr.com/ru/companies/bothub/articles/978060/

#ии #нейросети #машинное+обучение #ai #openai #gemini #gemini_flash #google #anthropic #claude

Обзор Gemini 3 Flash: как Google перехватывает инициативу на рынке ИИ в 2025 году

Рынок больших языковых моделей сейчас находится в состоянии постоянного кипения. Новые релизы выходят настолько часто, что обсуждение очередного обновления едва успевает набрать обороты, как его уже...

Хабр

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу. С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат? Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

https://habr.com/ru/articles/946080/

#llmмодели #chatgpt4 #chatgpt5 #claudeopus4 #gemini_flash #gemini_pro #qwen #языковые_модели #чертежи #обработка_изображений

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или...

Хабр

Pocupochki: когда лень писать список покупок, но есть 2 часа и доступ к Gemini

Рассказываю, как с помощью Google Stitch за 30 секунд получил готовый дизайн приложения, а потом с Gemini за пару часов превратил его в работающий сервис с голосовым вводом. Посмотреть

https://habr.com/ru/articles/913004/

#gemini_api #google_stitch #голосовой_ввод #список_покупок #вайбкодинг #websocket #nodejs #javascript #gemini_flash #google_io_2025

Pocupochki: когда лень писать список покупок, но есть 2 часа и доступ к Gemini

Вступление Привет, Хабр! Опять я со своим "а что если попросить artificial intelligence...". В этот раз попросил сразу две — одна нарисовала интерфейс, вторая написала код. Получилось настолько...

Хабр

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Я это проверил — и она подчинилась . Думали D o A nything N ow окончательно прикрыли? Я тоже так думал .

https://habr.com/ru/articles/909188/

#llm #chatgpt #исскуственный_интеллект #ии #взлом #gemini #gemini_flash

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

Немного теории ChatGPT рассказал мне что все сообщения для модели выглядят как простой текст, будь то системные или пользовательские. Он же и подготовил мне такой пример, где часть запроса модель...

Хабр

[Перевод] Как интегрировать Gemini 2.0 Flash в ваше веб-приложение

Компания Google выпустила Gemini 2.0 Flash со встроенными возможностями редактирования изображений, и это одна из самых революционных моделей, выпущенных Google в этом году. Я немного необъективен, потому что меня очень интересуют модели изображений с тех пор, как я запустил свое веб-приложение для генерации изображений. Известно, что технологический гигант плохо разбирается в документации по API, поэтому последние несколько дней я испытывал трудности с интеграцией Gemini 2.0 Flash в Flux Labs. К счастью, Логан Килпатрик , ведущий инженер по продуктам Google AI Studio, недавно опубликовал обновленную документацию, которая значительно облегчает работу. Так что если вы планируете создавать приложения с нуля или интегрировать Gemini 2.0 Flash в существующее веб-приложение, то сейчас я расскажу вам, как это сделать.

https://habr.com/ru/articles/894266/

#gemini #gemini_flash #генерация_изображений

Как интегрировать Gemini 2.0 Flash в ваше веб-приложение

Как интегрировать редактирование изображений с помощью Gemini 2.0 Flash в ваше веб-приложение Компания Google выпустила Gemini 2.0 Flash со встроенными возможностями редактирования изображений, и это...

Хабр

[Перевод] Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме, генерируя изображения непосредственно в той же системе, которая обрабатывает текст. Это устраняет необходимость в межмодельном взаимодействии, что значительно снижает время ожидания. Поскольку Gemini 2.0 Flash больше не зависит от Imagen 3, у нее более быстрый отклик и более плавное взаимодействие. Кроме того, вы даже можете добавлять длинный текст прямо на изображения! Посмотрите на этот пример, где я превратил генерального директора Google Deepmind, Дэмиса Хассабиса, в длинноволосого чувака.

https://habr.com/ru/articles/892014/

#gemini #gemini_flash #google #генерация_изображений

Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание...

Хабр