When you work on live TV and ad-lib weather with no script, it's important to focus and have...
#Montana #TV #TVWeather #quick #wit #quickwit #weather #licenseplate #funny #Thursday
Универсальное индексирование и поиск файлов по содержимому и типу через REST API: мотивация, контекст, архитектура и практическое применение Bash-скрипта для комплексной обработки данных
Введение
В эпоху взрывного роста цифровых данных и резкого увеличения количества документов разного формата на пользовательских компьютерах и в корпоративных средах, задача эффективного поиска по содержимому файлов становится всё более актуальной. Современные специалисты и энтузиасты сталкиваются с необходимостью мониторинга и анализа большого числа документов, музыкальных файлов, исходного кода и других данных. Однако для организации поиска с учётом типов файлов и предоставления результатов через REST API существует потрясающий вакуум в наборе стандартных готовых инструментов.Проблематика: отсутствует комплексное open source-решение
Классические подходы
В среде Linux и UNIX-подобных систем существует множество утилит для поиска по содержимому (grep, ack, ripgrep) и локального индексирования (Recoll, Tracker, DocFetcher). Однако у этих инструментов свои ограничения:Ограничения веб-решений
В ряде случаев существуют онлайн- или self-hosted сервисы с веб-интерфейсом (например, Paperless-ngx для работы с PDF/сканами, Photoprism для фотографий, MeiliSearch, Quickwit для полнотекстового поиска). Но ни один из этих продуктов, за редкимИтог
Совокупность вышеописанных наблюдений приводит к пониманию: на практике отсутствует свободно распространяемое и интегрируемое решение, покрывающее такой сценарий целиком и эффективно.Мотивация создания собственного инструмента
Организация цифровых архивов
Личный и рабочий опыт показал, что классическое хранение документов и мультимедийных файлов без надёжного поиска делает невозможным оперативную работу с ними. Случаи ежедневной необходимости найти свежий договор, техническую документацию, нужную mp3-композицию, фрагмент стихотворения, фрагмент кода из старого проекта встречаются повсеместно.Безопасность и приватность
Зачастую использование облачных решений неприемлемо по соображениям приватности или необходимости полного контроля над инфраструктурой. Необходим локальный, но мощный инструмент.Технологичность и расширяемость
Инструмент должен быть не только эффективен, но и расширяем, удобен для автоматизации и дальнейшей интеграции с другими платформами — веб-порталами, чат-ботами, поисковыми сервисами.Архитектура решения: как построен Bash-скрипт
Основная идея
Идея — использовать сильные стороны уже существующих компонент:Основные этапы
1. Индексация файлов с помощью Recollsed, чтобы парсить вывод Recoll и превращать каждую строку (mimetype, путь, summary, размер) в строку валидного JSON, пригодного для массовой загрузки в Quickwit.Примеp использования и пошаговый анализ скрипта
Инструкция по запуску
- Устанавливаете Recoll, Quickwit, jq.Пример JSONL-строки
{"ftype":"application/pdf","fpath":"/home/user/docs/file.pdf","summary":"Some PDF summary","bytes":123456}Поиск по типу и содержимому
Вызов к REST API (возвращает только пути подходящих файлов):Преимущества решения
- Полная кастомизация: любой формат вывода, структура метаданных, интеграция с любым внешним сервисом.Недостатки и ограничения
- Нет автоматической обработки бинарных вложенных форматов (например, архивы внутри архивов) — необходимо расширение скрипта.Дальнейшее развитие
- Интеграция поддержки новых форматов (ZIP, TAR, DOCX, XLSX) через внешние утилиты или Rust-крейты.Заключение
Создание комплексного инструмента для индексирования, парсинга и поиска файлов с выдачей результатов в формате REST API — шаг к универсальной экосистеме управления личными и корпоративными знаниями, которая не зависит от проприетарных облачных платформ.The November #syslog_ng newsletter is now on-line:
- A call for syslog-ng #testing
- Working with #Quickwit
- Huge improvements for syslog-ng in #macports
It is available at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2024-11-testing-quickwit-macports
Dear syslog-ng users, This is the 125th issue of syslog-ng Insider, a monthly newsletter that brings you syslog-ng-related news. NEWS A call for syslog-ng testing After the last syslog-ng release, we started a campaign to close open issues on GitHub....
Last time we looked at how syslog-ng can send logs to #Quickwit using its #Elasticsearch compatible API. This time we are going to look at how to use the #OpenTelemetry protocol to send logs to Quickwit with #syslog_ng.
Last time we looked at how syslog-ng can send logs to Quickwit using its Elasticsearch compatible API. This time we are going to look at how to use the OpenTelemetry protocol to send logs to Quickwit with syslog-ng. Before you begin On the syslog-ng ...
We are always looking for new ways to store log messages. #Quickwit is a new contender, designed for #log #storage, and among others, it also provides an #Elasticsearch-compatible #API.
https://www.syslog-ng.com/community/b/blog/posts/first-steps-with-quickwit-and-syslog-ng
is it possible to use #quickwit as a search engine instead of #elasticSearch in Mastodon/GlitchSoc?