Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. Но, внезапно, мне в личку постучались с таким проектом.

https://habr.com/ru/articles/1010932/

#computer_vision #machine_learning #clip #embeddings #классификация_изображений #zeroshot_learning #уменьшение_размерности_данных #фриланс #продуктовая_разработка #onnx

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попал Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не...

Хабр

It's becoming more and more common for agents to skip embedding search entirely. It seems like they do just fine with grep, find and other command-line tools!

How is that possible? Is an agent equipped with a few keyword-search tools really able to outperform a vector DB?

Let's find out.

https://www.zansara.dev/posts/2026-03-15-vector-dbs-vs-grep/

#AI #AIAgents #Embeddings

Is grep really better than a vector DB?

Sara Zan's Blog

Sara Zan

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем все это ложится в одно векторное пространство. Раньше если вы хотели искать по видеобиблиотеке через RAG, приходилось городить огород: транскрибировать аудиодорожку, описывать кадры через Vision LLM, склеивать в текст, и только потом эмбеддить. Каждый шаг - потеря информации. Теперь можно скормить модели MP4 напрямую, и текстовый запрос «как настроить авторизацию» найдёт и статью из базы знаний, и фрагмент видеоинструкции. Но сама по себе модель не решает проблему. LLM не может «прочитать» MP4, поэтому найденное видео без текстового описания - может быть бесполезно. Ключ - в правильной архитектуре: нативный эмбеддинг для поиска + параллельная генерация текстового описания для LLM: два канала, которые работают вместе и выводят мощь RAG наполную катушку. В этой статье разберем что нового в Gemini Embedding 2 и построим полноценный мультимодальный RAG с нуля - Python, Supabase, Gemini API. P.S. С кодом.

https://habr.com/ru/articles/1010030/

#rag #rag_ai #gemini #embeddings #базы_данных #ai #aiagents #postgresql #sql

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем всё это ложится в одно векторное...

Хабр

Prince Canuma (@Prince_Canuma)

mlx-embeddings v0.1.0 출시: 새 모델로 Alibaba의 Qwen3 VL Embedding 및 Reranker와 ColDefics3(LoRA 어댑터 및 ColVision 프로세서 포함)이 추가되었습니다. NVFP4·MXFP4·MXFP8 양자화 지원이 도입되었고, Gemma3의 양방향 모델 임베딩 품질 수정이 포함됩니다.

https://x.com/Prince_Canuma/status/2032890809847029896

#mlxembeddings #embeddings #qwen3 #coldefics3 #quantization

Prince Canuma (@Prince_Canuma) on X

mlx-embeddings v0.1.0 is out! 🔥 New models: → Qwen3 VL Embedding and Reranker by @Alibaba_Qwen → ColDefics3 with LoRA adapters & ColVision processor b New features: → NVFP4, MXFP4 and MXFP8 quantization support → Gemma3 embedding quality fix for bidirectional models →

X (formerly Twitter)

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Сравнил полнотекстовый поиск PostgreSQL ( tsvector / tsquery + GIN-индекс) с семантическим поиском через pgvector ( cosine distance ) на датасете из 10 019 товарных категорий Ozon. Три embedding-модели: GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API) Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на GPU) text-embedding-3-small (OpenAI, 1536-мерные, API) Прогнал 18 запросов в пяти категориях: синонимы и сленг, intent-запросы в свободной форме, подарочная тематика, cross-lingual (EN-запросы к RU-данным), абстрактные формулировки. Замерил латентность и top-5 с cosine similarity score. Разбор каждого запроса, таблицы и код — под катом.

https://habr.com/ru/articles/1010200/

#искусственный_интеллект #gigachat #openai #qwen #embeddings

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

1. Семантический поиск: поиск по смыслу Идея семантического поиска: представить и документы, и запрос в виде числовых векторов (embeddings) в едином пространстве. Близкие по смыслу тексты будут иметь...

Хабр

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

#AI #LLM #RAG #Embeddings #Reranking #Vector Database #Fine-Tuning

https://www.glukhov.org/rag/

Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

Rost Glukhov | Personal site and technical blog

Google AI Studio (@GoogleAIStudio)

멀티모달 검색 데모 체험용 링크 안내: multimodal_search 데모를 시도해보라는 단축 링크로, Gemini Embedding 2 기반의 멀티미디어 통합 검색 데모를 직접 사용해볼 수 있도록 연결합니다.

https://x.com/GoogleAIStudio/status/2032145395384795196

#multimodal #demo #aistudio #embeddings

Google AI Studio (@GoogleAIStudio)

Gemini Embedding 2 발표: 텍스트·이미지·오디오·비디오·문서를 단일 벡터 공간으로 통합하여 모든 미디어에서 동시에 검색 가능하게 하고, 데이터 포맷과 상관없이 의미적 매칭을 찾을 수 있게 하는 멀티모달 임베딩 기술입니다. 멀티모달 검색 데모로 시연 가능하다고 안내합니다.

https://x.com/GoogleAIStudio/status/2032145393967038583

#gemini #embeddings #multimodal #search

Google AI Studio (@GoogleAIStudio) on X

gemini embedding 2 brings text, images, audio, video, and docs into a single vector space, enabling search across all your media at once, finding semantic matches regardless of the data format see it in action with our multimodal search demo ⬇️

X (formerly Twitter)

Thor 雷神 (@thorwebdev)

Gemini로 멀티모달 임베딩을 생성한 뒤 pgvector와 Supabase에 저장·검색할 수 있다는 안내입니다. 텍스트·이미지·비디오·오디오·문서 등 여러 모달리티에 대해 유사도 검색을 수행하는 개발자용 워크플로우 통합 사례를 소개합니다.

https://x.com/thorwebdev/status/2031747774174183776

#gemini #pgvector #supabase #multimodal #embeddings

Thor 雷神 ⚡️ (@thorwebdev) on X

Generate multimodal embeddings with Gemini, then store and search them with pgvector in @supabase 🔎 Perform similarity search across text, images, video, audio, and documents! 🚀

X (formerly Twitter)

Google AI Developers (@googleaidevs)

Gemini Embedding 2가 공개되었습니다. Gemini 아키텍처 기반의 가장 강력하고 처음으로 완전 멀티모달을 지원하는 임베딩 모델이며, 현재 Gemini API와 Vertex AI에서 프리뷰로 제공되어 멀티모달 임베딩을 활용한 애플리케이션 개발을 시작할 수 있습니다.

https://x.com/googleaidevs/status/2031421430718415051

#gemini #embeddings #multimodal #vertexai #api

Google AI Developers (@googleaidevs) on X

Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI.

X (formerly Twitter)