Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к...

Хабр

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к...

Хабр

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

Ручной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По прогнозу Gartner, к 2030 году синтетические данные полностью затмят реальные данные в моделях ИИ.Почему? Потому что это работает. Что такое синтетические данные? Это искусственно созданные наборы данных, которые имитируют реальные данные, но не основаны на реальных событиях или людях. Они генерируются с помощью алгоритмов и математических моделей, которые воспроизводят статистические свойства, паттерны и взаимосвязи, присущие реальным данным. По сути, это цифровые двойники реальности, где мы можем контролировать каждый параметр: от распределений до корреляций и аномалий.

https://habr.com/ru/articles/888830/

#python #машинное_обучение #machine_learning #данные #генерация_данных #синтетические_данные #data_science #наука_о_данных #программирование #нейронные_сети

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

Введение Ручной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры —...

Хабр

Оголяем «данные» и что из этого вышло

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

https://habr.com/ru/articles/848320/

#открытые_данные #стартап #экология #визуализация_данных #графики #графики_и_диаграммы #исследование #наука #наука_о_данных #наука_и_технологии

Оголяем «данные» и что из этого вышло

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого...

Хабр

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами. Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса. Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи: 1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка. К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

https://habr.com/ru/articles/820411/

#Классификация #Confusion_matrix #Accuracy #Precision #Recall #Fscore #ROCAUC #метрики #искусственный_интеллект #наука_о_данных

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала  AI для чайников , и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую...

Хабр

Мой краш-тест чемпионата: Победа в Data Science треке

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.

https://habr.com/ru/articles/784522/

#хакатоны #карьера_в_itиндустрии #менеджмент_проектов #машинное_обучение #мышление #наука_о_данных #data_analysis

Мой краш-тест чемпионата: Победа в Data Science треке

Привет! Меня зовут Елизавета Полковникова. С воодушевлением делюсь с вами, уважаемые читатели, ценным опытом завоевания первого места в чемпионате "CUP IT 2023" от Changellenge. В основе этого...

Хабр