RuModernBERT и USER2: эволюция русскоязычных энкодеров

Привет, Хабр! В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы: • Pre‑train‑модели (BERT, RoBERTa, DeBERTa). Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу. • Энкодеры текстов (SBERT). Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами. В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

https://habr.com/ru/companies/vk/articles/930382/

#bert #rumodernbert #modernbert #user2 #энкодеры

RuModernBERT и USER2: эволюция русскоязычных энкодеров

Привет, Хабр! В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота...

Хабр

Adam Kovacs presents LettuceDetect, a lightweight hallucination detector for Retrieval-Augmented Generation (#RAG) pipelines. It is an encoder-based model built on #ModernBERT, released under the MIT license with ready-to-use #Python packages and pretrained models.

https://towardsdatascience.com/lettucedetect-a-hallucination-detection-framework-for-rag-applications/

LettuceDetect: A Hallucination Detection Framework for RAG Applications | Towards Data Science

How to capitalize on ModernBERT’s extended context window to build a token-level classifier for hallucination detection

Towards Data Science

Thanks #Anthropic for making #RAG easier with #LLMs!
https://arstechnica.com/ai/2025/01/anthropic-adds-citations-in-bid-to-avoid-confabulating-ai-models/

RAG ensures the answer of a chatbot is really grounded on some data, or any external source of information. It usually consists in using the model separately for encoding and decoding.

At this point one might prefer having a specialised #NLP encoder like #ModernBERT #BERT: https://huggingface.co/blog/modernbert, which is lighter to run locally.

Anthropic builds RAG directly into Claude models with new Citations API

New feature allows Claude to reference source documents and reduce hallucinations.

Ars Technica

#weeknotes

Cette semaine, je continue de documenter le problème M*sk, je parle du retour de #BERT avec #ModernBERT, de la fin du #GlobalEngagementCenter, de #Mayotte et de plein d'autres choses.

👉 https://write.apreslanu.it/pac/weeknote-51

Bonne lecture

Weeknote #51

Le problème Msk L'économiste Gabriel Zucman s'étonne que plus personne ne pense à taxer les milliardaires : Funny how 5 years ago we ...

pac

If you’re deep into #AI and #Transformers, then this extremely well-written piece of #TechnicalWriting will be of interest. It’s an important announcement, in the form of a killer blog post, from #Huggingface about an upgrade to encoder-only #BERT - naturally called #ModernBERT The sexy side of AI are decoder-only LLM platforms that are ‘generative’ like ChatGPT, Gemini and Claude. Encoder-only models are ‘representative’ not generative - but still very important and widely used tools in the world of #ArtificialIntelligence

https://huggingface.co/blog/modernbert

Finally, a Replacement for BERT: Introducing ModernBERT

We’re on a journey to advance and democratize artificial intelligence through open source and open science.