Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания.

https://habr.com/ru/articles/922868/

#visual_transformer #vit #transformer #computervision #разбор_статьи

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Обо мне Привет, меня зовут Василий Техин, и последние 6 лет я живу в мире машинного обучения — от первых шагов с линейной регрессией до экспериментов с современными VLm. Когда я только начинал, мне не...

Хабр
JOB: Postdoc in Digital Humanities (Computer Vision & Performing Arts) at Université Rennes 2
Full-time, starting Oct 2025, part of ERC project STAGE.
Apply by 8 Sep 2025
#DigitalHumanities #ComputerVision #PerformingArts #Postdoc #ERC #JobOpportunity #CulturalHeritage
https://euraxess.ec.europa.eu/jobs/348852
Postdoc in Digital Humanities (Computer Vision & Performing Arts)

Université Rennes 2 is the host institution of the ERC Advanced Grant project STAGE – From Stage to Data: The Digital Turn of Contemporary Performing Arts Historiography.

EURAXESS

"An increasing number of scholars, policymakers and grassroots communities argue that artificial intelligence (AI) research—and computer-vision research in particular—has become the primary source for developing and powering mass surveillance. Yet, the pathways from computer vision to surveillance continue to be contentious. Here we present an empirical account of the nature and extent of the surveillance AI pipeline, showing extensive evidence of the close relationship between the field of computer vision and surveillance. Through an analysis of computer-vision research papers and citing patents, we found that most of these documents enable the targeting of human bodies and body parts. Comparing the 1990s to the 2010s, we observed a fivefold increase in the number of these computer-vision papers linked to downstream surveillance-enabling patents. Additionally, our findings challenge the notion that only a few rogue entities enable surveillance. Rather, we found that the normalization of targeting humans permeates the field. This normalization is especially striking given patterns of obfuscation. We reveal obfuscating language that allows documents to avoid direct mention of targeting humans, for example, by normalizing the referring to of humans as ‘objects’ to be studied without special consideration. Our results indicate the extensive ties between computer-vision research and surveillance."

https://www.nature.com/articles/s41586-025-08972-6

#ComputerVision #AI #Surveillance #Patents #IP

Computer-vision research powers surveillance technology - Nature

An analysis of research papers and citing patents indicates the extensive ties between computer-vision research and surveillance.

Nature

Discussions about the use of AI for political cartoons with political cartoonists Joe Dworetzky at Bay City News and Pulitzer-winner Mark Fiore.

https://www.niemanlab.org/2025/06/i-dont-want-to-outsource-my-brain-how-political-cartoonists-are-bringing-ai-into-their-work/

#solidstatelife #ai #genai #llms #computervision #domesticpolitics

OK, I've been counting down the seconds to the publication of this outstanding article, by far the most interesting one I've read in the past year. If you study #surveillance #computervision, gift yourself some time to read Ria Kalluri + Abeba Birhane (et al) https://www.nature.com/articles/s41586-025-08972-6#MOESM1
Computer-vision research powers surveillance technology - Nature

An analysis of research papers and citing patents indicates the extensive ties between computer-vision research and surveillance.

Nature
Use of AI to calssify and measure green beans. More to come #AI #Computervision

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

Иногда пользователи пытаются пройти биометрическую верификацию не совсем честно. Иногда — совсем нечестно. Кто-то показывает фото на экране другого телефона, кто-то — печатает лицо на бумаге и машет им в камеру. Всё это — спуфинг, и он давно вышел из лабораторий и научных статей в суровую продакшен-практику. А задача при этом, казалось бы, простая: по одному кадру понять, есть ли перед камерой живой человек. Ни видео, ни поведенческой биометрии, ни инфракрасных сенсоров. Просто JPEG. Просто ад. Все о спуфинге и методах борьбы с ним знает наш разработчик Александр. Он работает над проектом антиспуфинг-системы, способной по изображению с фронталки отличать живого человека от картинки. В этой статье мы расскажем, как он научил систему это делать. Без волшебства: только кастомный датасет, ансамбль CNN и несколько костылей — куда без них.

https://habr.com/ru/articles/921390/

#ии #икусственный_интеллект #спуфинг #спуфингатаки #антиспуфинг #компьютерное_зрение #cv #computervision #computer_vision

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

Иногда пользователи пытаются пройти биометрическую верификацию не совсем честно. Иногда — совсем нечестно. Кто-то показывает фото на экране другого телефона, кто-то — печатает лицо на бумаге и машет...

Хабр

Bytedance Seedance video models. While Google's Veo 3 has stolen the headlines, Bytedance, the Chinese company behind TikTok, has developed Seedance, which is actually a family of video models which produce video at a variety of resolutions and quality levels. WaveSpeedAI provides a video-generation service using these models.

https://wavespeed.ai/collections/Bytedance

#solidstatelife #ai #genai #diffusionmodels #computervision

Bytedance - Bytedance model collection - WaveSpeedAI

Bytedance video model collectionBytedance Seedance Pro is ByteDance's state-of-the-art AI video generation model suite, offering cutting-edge Text-to-Video (T2V) and Image-to-Video (I2V) capabilities. Available exclusively on WaveSpeedAI with ultra-fast inference acceleration, these models deliver professional-quality video content in multiple resolutions.