[Перевод] Postgres как поисковый движок

Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс. Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска. Эрик Закариассон, разработчик и автор блога Anyblockers, рассмотрел в своей статье, как использовать Postgres для создания надёжной поисковой системы. В рамках задачи автор объединил три техники: 1. Полнотекстовый поиск с tsvector 2. Семантический поиск с pgvector 3. Нечёткое сопоставление с pg_trgm 4. Бонус: BM25 Возможно, это не оптимальный подход для любой ситуации, но отличная альтернатива созданию отдельного поискового сервиса; отправная точка, которую можно реализовать и масштабировать в рамках существующей базы данных Postgres.

https://habr.com/ru/companies/sravni/articles/888534/

#postgresql #поисковый_движок #полнотекстовый #семантический_поиск #нечеткий_поиск

Postgres как поисковый движок

Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс. Хотя семантический поиск в...

Хабр

Методы распознавания матерных (и не только) языков

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет виден всем остальным. Неожиданно (!!!) появились интересы с не очень хорошими словами, которые обычно называют матерными. Встала задача по распознаванию языка с матерными словами, чтобы исключить возможность добавления гадости в наш огород!

https://habr.com/ru/companies/doubletapp/articles/886832/

#распознавание_речи #распознавание_текста #фильтрация_спама #триграммы #нечеткий_поиск #chatgpt

Методы распознавания матерных (и не только) языков

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет...

Хабр