Красота математики и ML (part 1/2): алгоритм MinHash
Алгоритм MinHash позволяет транслировать разряжённые (sparse) бинарные векторы большой размерности в целочисленные векторы многократно меньшей размерности с сохранением информации, позволяющей оценить похожесть исходных векторов. С алгоритмом SimHash его объединяет то, что оба они просто потрясающе красивы! Настолько, что вот прям хочется про них рассказать. Про SimHash в следующий раз, а вот если интересно чем же мне так понравился MinHash, добро пожаловать под кат! Ну и чем же?
https://habr.com/ru/articles/1049324/
#minhash #machinelearning #ml #машинное_обучение #математика

