Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности
Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.
https://habr.com/ru/articles/847780/
#cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных