[Перевод] Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.

https://habr.com/ru/articles/1049176/

#prompt_engineering #vlm #ocr #Qween #Gemma #Positional_Encoding

Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто...

Хабр

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Статья про то, как CV-сервис вырос с MVP до 10 миллионов проверок фото в месяц и не развалился в проде. 🔧 Это не про «у нас классные модели» и не про «просто прикрутили YOLO», а про честную инженерную продуктивизацию. Про то как универсальный классификатор путал фарш с грязью, почему часть анкет всё равно лучше отдавать человеку, зачем отдельно мониторить качество моделей и что приходится чинить, когда реальный мир меняется быстрее обучающей выборки. Внутри: компьютерное зрение, 26 моделей, 62 проверки, CNN, VLM, Triton, vLLM, Kafka, Human-in-the-loop, мониторинг качества, сезонность, баги под нагрузкой и немного «веган-версии ИИ». Заходите, читайте и делитесь своим опытом продакшена ML-сервисов ❤️

https://habr.com/ru/companies/X5Tech/articles/1047946/

#computer_vision #multimodal #yolo #resnet #vlm #cnn #tritoninferenceserver #humanintheloop #kafka #ритейл

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Привет, Хабр! Меня зовут Иван Попов, я руковожу командой компьютерного зрения CV Hub в дирекции искусственного интеллекта X5 Tech. А ещё у нас в команде есть Иваныч . Так пользователи «Пятёрочки»...

Хабр

Photo of the Day 10th June 2026.

On This Day 10th June 1993.

https://mancavgeek.co.uk/2026/06/10/photo-of-the-day-10th-june-2026/

📯„Karikaturen digitaler Umwelten: Computer-Natur-Beziehungen im Anthropozän mit Vision Language Models erforschen“ präsentiert Martin Schmitt (Universität Paderborn) im #DigitalHistoryOFK in dieser Woche.

Anhand von 1.250 Computerkarikaturen zeigt er, wie Computer-Vision-Modelle neue Perspektiven auf digitale Kulturen und #Umweltgeschichte eröffnen.

📅3.06.26, 16Uhr (CET), im ZZF & online
ℹ️https://dhistory.hypotheses.org/13713

#4memory #VLM

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

В 2023 году мы рассказывали, как в Поиске по архивам появилось распознавание рукописных документов и почему сама по себе расшифровка архивного текста — нетривиальная задача. Старые почерки, сложная вёрстка, нестандартные формулировки и огромное разнообразие источников делают архивы трудным доменом даже для сильных OCR‑моделей. По мере развития сервиса стало ясно, что одной только расшифровки недостаточно: чтобы действительно помогать пользователям находить своих родственников, нужно не просто видеть слова на скане, а понимать, кто именно упомянут в записи, в какой роли и как связан с другими людьми. Теперь в Поиске по архивам работает новая модель распознавания документов. Она не только распознаёт текст архивного файла, но и структурирует информацию из него. Например, понимает роли и связи между разными людьми: «родившийся», «отец» и «мать» для рождения или «жених», «невеста», «свидетель» для брака. Меня зовут Даша Виноградова, я руковожу универсальными применениями компьютерного зрения в Яндексе. Вместе с Аней Сидоровой, главным разработчиком распознавания архивов, мы расскажем, как мы сделали шаг от распознавания текста к извлечению структуры и смысла из архивных документов: как мы перестраивали OCR‑пайплайн, почему нам не подошли универсальные VLM‑модели и как пытались разобраться, кто есть кто: отец, мать, жених или свидетель.

https://habr.com/ru/companies/yandex/articles/1038044/

#яндекс #ai #vlm #ocr

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

В 2023 году мы рассказывали, как в Поиске по архивам появилось распознавание рукописных документов и почему сама по себе расшифровка архивного текста — нетривиальная...

Хабр
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry

Как Vision-Language Models учатся работать с 3D-миром

Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.

https://habr.com/ru/companies/ru_mts/articles/1035508/

#VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект

Как Vision-Language Models учатся работать с 3D-миром

Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах,...

Хабр

Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

https://habr.com/ru/articles/1035776/

#Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение

Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

Maix4 HAT Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора...

Хабр
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

Detaylı yazı + VRAM önerileri:
https://webbrain.one/blog

GitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain

#LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

WebBrain Blog

Engineering notes from WebBrain — the open-source AI browser agent.