Анализ новостей с помощью сегментации и кластеризации временных рядов
В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье. Шаг 1. Сбор данных В качестве источника данных я взяла информационно-новостной ресурс Лента.ру , так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests . В коде происходит процедура сбора заголовка, даты и тематики новостей:
https://habr.com/ru/articles/805801/
#сегментация #анализ_временных_рядов #кластеризация_данных #новостные_ресурсы #тематическое_моделирование #kmeans #python #машинное_обучение #otus