Нечёткий поиск при пересечении множеств, или Как выжать все соки из Хэширования по сигнатуре

На просторах интернета легко можно найти материалы по реализации нечёткого поиска, в которых предполагается поиск одной строки в множестве строк M . Но что если возникнет необходимость реализовать нечёткое сравнение множества M₁ с множеством M₂ ? При классическом подходе нам придется выполнить сравнений - при линейном росте этих множеств, сложность задачи будет расти экспоненциально , в плане производительности это решение никуда не годиться! В этой статье предложен вариант реализации ускоренного алгоритма для решения этой задачи. Теоретической новизны в проекте практически нет. Цели: 1 - Ознакомить с концепцией 2 - Дать конкретный пример интеграции в БД SQL(MSSQL) 3 - Ознакомить с возможностями на базе практической реализации

https://habr.com/ru/articles/965934/

#нечёткое_сравнение_строк #расстояние_хэмминга #расстояние_левенштейна #hengine #хэширование_по_сигнатуре #sql #интеграция_стороннего_кода_в_SQL #mssql #sqlclr #c#net

Нечёткий поиск при пересечении множеств, или Как выжать все соки из Хэширования по сигнатуре

Слияние рек Солимоэнс (верхняя Амазонка) и Риу-Негру в Бразилии На просторах интернета легко можно найти материалы по реализации нечёткого поиска , в которых предполагается поиск одной строки в...

Хабр

[Перевод] Обрабатываем строки в 109 раз быстрее, чем NVIDIA на H100

Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк. нацеленной в первую очередь на SIMD . Это означает, что теперь она стала быстрой не только на CPU, но и на GPU! • Я хотел добавить ускорение ROCm для GPU AMD • Я хотел добавить параллельный мультипаттерновый алгоритм поиска • Я хотел опубликовать всё это ещё в декабре 2024 года Итак, не всё пошло по плану, но StringZilla 4 CUDA наконец-то здесь, и она добавляет 500 с лишним GigaCUPS вычислений редакторского расстояния; при этом пакет можно установить через pip install . Также в ней есть некоторые другие трюки, предназначенные для крупномасштабных систем извлечения данных, баз данных и озёр данных, а также биоинформационных задач . И всё это под разрешительной опенсорсной лицензией Apache 2.0, позволяющей свободно использовать библиотеку в коммерческих целях. В этом посте я рассмотрю самые интересные части релиза, и в том числе: • Быструю оценку алгоритмов динамического программирования на GPU , • Хэширование CRC32 , MurMurHash , xxHash , aHash и не только, а также • Фингерпринтинг биологических последовательностей 52-битными целыми числами

https://habr.com/ru/articles/949522/

#обработка_строк #string #белки #расстояние_левенштейна

Обрабатываем строки в 109 раз быстрее, чем Nvidia на H100

Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк. нацеленной в первую очередь на SIMD . Это означает, что теперь она стала быстрой не только на...

Хабр

[Перевод] Обрабатываем строки в 109 раз быстрее, чем Nvidia на H100

Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк. нацеленной в первую очередь на SIMD . Это означает, что теперь она стала быстрой не только на CPU, но и на GPU! • Я хотел добавить ускорение ROCm для GPU AMD • Я хотел добавить параллельный мультипаттерновый алгоритм поиска • Я хотел опубликовать всё это ещё в декабре 2024 года Итак, не всё пошло по плану, но StringZilla 4 CUDA наконец-то здесь, и она добавляет 500 с лишним GigaCUPS вычислений редакторского расстояния; при этом пакет можно установить через pip install . Также в ней есть некоторые другие трюки, предназначенные для крупномасштабных систем извлечения данных, баз данных и озёр данных, а также биоинформационных задач . И всё это под разрешительной опенсорсной лицензией Apache 2.0, позволяющей свободно использовать библиотеку в коммерческих целях. В этом посте я рассмотрю самые интересные части релиза, и в том числе: • Быструю оценку алгоритмов динамического программирования на GPU , • Хэширование CRC32 , MurMurHash , xxHash , aHash и не только, а также • Фингерпринтинг биологических последовательностей 52-битными целыми числами

https://habr.com/ru/articles/949522/

#обработка_строк #string #белки #расстояние_левенштейна

Обрабатываем строки в 109 раз быстрее, чем Nvidia на H100

Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк. нацеленной в первую очередь на SIMD . Это означает, что теперь она стала быстрой не только на...

Хабр