Красота математики и ML (part 1/2): алгоритм MinHash

Алгоритм MinHash позволяет транслировать разряжённые (sparse) бинарные векторы большой размерности в целочисленные векторы многократно меньшей размерности с сохранением информации, позволяющей оценить похожесть исходных векторов. С алгоритмом SimHash его объединяет то, что оба они просто потрясающе красивы! Настолько, что вот прям хочется про них рассказать. Про SimHash в следующий раз, а вот если интересно чем же мне так понравился MinHash, добро пожаловать под кат! Ну и чем же?

https://habr.com/ru/articles/1049324/

#minhash #machinelearning #ml #машинное_обучение #математика

Красота математики и ML (part 1/2): алгоритм MinHash

Вернулся к одному из своих исследований в области векторизации текста. Возможно, расскажу о нём позже, а пока, в поисках ответа на вопрос насколько моё исследование повторяет уже существующие...

Хабр

Jeff Larson - On the resemblance and containment of documents (2014)

https://www.youtube.com/watch?v=zbIt245amAw

#ComputerScienceFieldOfStudy #MinHash #PapersSoftware

Jeff Larson - On the resemblance and containment of documents

YouTube
🌕 使用Jaccard相似性和MinHash查找近似重複項
➤ Jaccard 相似度和 MinHash 的使用。
https://blog.nelhage.com/post/fuzzy-dedup/
在這篇文章中,作者探索了通過Jaccard相似性和MinHash近似技巧的方法來處理大型文檔數據集中的大量情況。他描述了關於Jaccard相似性的計算,並解釋了它如何套用在原始文檔上。
+ 很有用的信息,感謝分享。
+ 好好解釋了這些技術,並提供了很多內容。
#重複項查找 #Jaccard相似性 #MinHash
Finding near-duplicates with Jaccard similarity and MinHash

How do you find near-duplicates in a massive collection of documents? An exploration of the Jaccard similarity metric, and the MinHash hashing trick used to efficiently approximate it at web scale.

Made of Bugs
Last week I presented a poster at RECOMB about decentralized indexes for public genomic data. Content and comments are on GitHub: https://github.com/luizirber/2017-recomb
#bioinformatics #ipfs #minhash
Mi #esperant'igis artikolon je #Vikipedio pri#Komputoscienco:
🇺🇲 #MinHash → 💚 MinHaketo
https://eo.wikipedia.org/wiki/MinHaketo