Binary Representation + Hamming Distance 時的搜尋演算法

上個月看到「Hamming Distance for Hybrid Search in SQLite (via)」的時候引起的興趣,有些 embedding model 在訓練時有對 binary representation 調過的,即使把 fp32 或是 fp16 (或是 bf16) 的 embedding 降到 binary representation 後用 hamming distance 仍然有很好的...

Gea-Suan Lin's BLOG

Tengo publicado en YouTube un tutorial de instalación de PGVector en Windows. Esta herramienta es bastante popular en el ámbito de la Inteligencia Artificial.

https://youtu.be/xvRwwAF_-X4

#AI #Embedding #SiguemeYTeSigo #followback

Nota: imagen generada con IA.

Google lance Gemini Embedding 2, un modèle qui comprend texte, image, vidéo et audio en même temps - Korben

Google vient de lancer Gemini Embedding 2, son premier modèle d'embedding nativement multimodal. Texte, images, vidéo, audio et documents sont projetés ...

Le site de Korben
Google lance Gemini Embedding 2, un modèle qui comprend texte, image, vidéo et audio en même temps - Korben

Google vient de lancer Gemini Embedding 2, son premier modèle d'embedding nativement multimodal. Texte, images, vidéo, audio et documents sont projetés ...

Le site de Korben
EFF To Court: Don’t Make Embedding Illegal

Who should be directly liable for online infringement – the entity that serves it up or a user who embeds a link to it? For almost two decades, most U.S. courts have held that the former is respons…

Techdirt

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...

Хабр

If you are building an application that requires search, I recommend using Elasticsearch early on. In addition to the usual full-text search, Elasticsearch allows you to perform a hybrid search: combine the results of text and vector search.
Of course, for small amounts of data, you can use PostgreSQL tsvector with the pgvector extension, but in the long term, Elasticsearch will provide good performance.

#Elasticsearch #Search #tsvector #pgvector #KNN #Embedding #SentenceTransformers #AI

Emmerich Newspapers wants the Fifth Circuit Court of Appeals to scrap the Server Test, something that's been legal precedent for almost two decades.

Emmerich Newspapers also argues that altering a URL, via something like a link shortener, should constitute copyright infringement under the DMCA ("Prohibition on changing or deleting copyright management information").

In short, they want to make link embedding and link shortening essentially illegal (or least very legally gray). Copyright maximalists are batshit insane.

#FreeSpeech #Censorship #Embedding #Links #Internet #Copyright #CopyrightNonsense

RE: https://mastodon.social/users/eff/statuses/116196024145324586

RE: https://mastodon.social/@eff/116196024145324586

Emmerich Newspapers wants the Fifth Circuit Court of Appeals to scrap the Server Test, something that's been legal precedent for almost two decades.

Emmerich Newspapers also argues that altering a URL, via something like a link shortener, should constitute copyright infringement under the DMCA ("Prohibition on changing or deleting copyright management information").

In short, they want to make link embedding and link shortening essentially illegal (or least very legally gray). Copyright maximalists are batshit insane.

#FreeSpeech #Censorship #Embedding #Links #Internet #Copyright #CopyrightNonsense

Научил ИИ-агента помнить важное и забывать лишнее в SQLite

Я делаю локально работающего ИИ-агента и столкнулся с тем, что стандартный подход «закинуть текст в векторную базу, достать по косинусу» для долгоживущего агента не работает: контекст замусоривается, факты конфликтуют, ничего не забывается. Вместо этого реализовал графовую когнитивную память поверх одного файла SQLite: эпизодические и семантические узлы, типизированные рёбра, именованные сущности, гибридный поиск (FTS5 + vector + graph) с Reciprocal Rank Fusion, кривую забывания Эббингауза и фоновую LLM-консолидацию. В статье — полная архитектура с кодом, SQL-схемой и формулами. Код и минимальный пример — в репозитории . Дальше long-read

https://habr.com/ru/articles/1006622/

#ai_agent #ai #ии #ииагенты #память #sqlite #vector #embedding

Научил ИИ-агента помнить важное и забывать лишнее в SQLite

TL;DR Я делаю локально работающего ИИ-агента и столкнулся с тем, что стандартный подход «закинуть текст в векторную базу, достать по косинусу» для долгоживущего агента не работает: контекст...

Хабр