Mastodawn

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...

Хабр

yegorov Mar 10

If you are building an application that requires search, I recommend using Elasticsearch early on. In addition to the usual full-text search, Elasticsearch allows you to perform a hybrid search: combine the results of text and vector search.
Of course, for small amounts of data, you can use PostgreSQL tsvector with the pgvector extension, but in the long term, Elasticsearch will provide good performance.

#Elasticsearch #Search #tsvector #pgvector #KNN #Embedding #SentenceTransformers #AI

Habr Feb 24

Лучший перевод Шекспира с точки зрения математики

За переводы сонетов Шекспира брались многие мастера и любители. Мне стало интересным провести лексико-семантический анализ нескольких переводов 74 сонета и сравнить их с оригиналом. Я взял авторов, авторитет которых как поэтов и переводчиков вне сомнения Маршака и Пастернака. И двух переводчиков, не известных как поэты - Николая Гербеля и Модеста Чайковского. Я захотел проверить, кто из переводчиков точнее всего передал смысл, ритм и эмоции оригинала, используя алгоритмы машинного обучения.

https://habr.com/ru/articles/996614/

#python #nlp #nlpмодели #nltk_python #проза #поэзия #литература_художественная #sentencetransformers #sbert

Лучший перевод Шекспира с точки зрения математики

Покоен будь: когда я буду смертью скован, Без мысли быть опять когда-нибудь раскован, Останутся тебе на память, милый мой, ...

Хабр

Habr 25+Feb 9

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

https://habr.com/ru/articles/994618/?utm_source=habrahabr&utm_medium=rss&utm_campaign=994618

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут. Я представился в первом сообщении. Двести сообщений назад... Агент забыл. Не потому что тупой....

Хабр

Habr Feb 9

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

https://habr.com/ru/articles/994618/

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут. Я представился в первом сообщении. Двести сообщений назад... Агент забыл. Не потому что тупой....

Хабр

Show thread

UKP Lab Oct 22

🔗 Learn more:
• Official website → https://sbert.net/
• Original paper → https://aclanthology.org/D19-1410.pdf
• GitHub repository → https://github.com/UKPLab/sentence-transformers

📰 Read the full announcements:
TU Darmstadt Press Release
→ https://www.tu-darmstadt.de/universitaet/aktuelles_meldungen/einzelansicht_528832.de.jsp

Hugging Face Blog Post
→ https://huggingface.co/blog/sentence-transformers-joins-hf

(2/2)

#UKPLab #HuggingFace #SentenceTransformers #NLP #AIresearch #OpenSource 🚀

SentenceTransformers Documentation — Sentence Transformers documentation

AI Sparkup Sep 9, 2025

스마트폰에서 돌아가는 구글 AI, EmbeddingGemma가 개발 판도를 바꾼다

구글이 공개한 혁신적인 임베딩 모델 EmbeddingGemma의 특징과 실무 활용법을 소개합니다. 스마트폰에서도 실행 가능한 308M 파라미터 모델로 고품질 AI 기능을 저비용으로 구현하는 방법을 다룹니다.

https://aisparkup.com/posts/4761

Paolo Melchiorre Feb 15, 2025

I'm happy to share that I'll be speaking at PyCon Italia 2025 🎉

I'll show you how to implement a semantic search with Python, Django and PostgreSQL 🤖

See you in Bologna from 29 May 2025 🇮🇹

Info 👇
https://www.paulox.net/2025/05/29/pycon-italia-2025/

#PyCon #PyConItalia #PyConIT #Python #SemanticSearch #Django #PostgreSQL #PGvector #SentenceTransformers #OpenSource #FreeSoftware #AI #FOSS

CC @pycon

PyCon Italia 2025

PyCon Italia is the national conference where professionals, researchers and enthusiasts of the most beautiful programming language gather together.

Paolo Melchiorre

Dominik Weckmüller Apr 12, 2023

𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰𝗙𝗶𝗻𝗱𝗲𝗿 - A browser-based semantic search engine you can use to query your own texts!

Demo: https://geo.rocks/semanticfinder/
Blog Post: https://geo.rocks/post/semanticfinder-semantic-search-frontend-only/
GitHub: https://github.com/do-me/SemanticFinder/

Built with amazing open-source software: #SentenceTransformers (all-MiniLM-L6-v2), #transformers.js, #CodeMirror and #Bootstrap. #SemanticFinder

SemanticFinder - Frontend-only Semantic Search with transformers.js

Dominik Weckmüller Apr 6, 2023

Create a semantic search engine with only a vector database and a light-weight frontend - keep the inference server client-side!

Tutorial with demo: https://geo.rocks/post/qdrant-transformers-js-semantic-search/

Powered by amazing open-source software from #Qdrant, #transformers.js and #SentenceTransformers!

Semantic Search with Qdrant, Hugging Face, SentenceTransformers and transformers.js

Create a fully working semantic search stack with only Qdrant as vector database with built-in API and transformers.js using any huggingface model as your frontend-only embedding generator. No additional inference server needed! Image courtesy Qdrant & Hugging Face.