Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

https://habr.com/ru/articles/916114/

#парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка...

Хабр

Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.

https://habr.com/ru/articles/896756/

#api #vba #vbaмакросы #vba_excel #excel #парсинг #парсинг_данных #сбор_данных

Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

При расчёте доходности приобретения валютных пар и акций pre-IPO всегда нужны актуальные курсы валютных пар. Постоянно открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы...

Хабр

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках

Автоматический сбор данных (парсинг сайтов, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен...

Хабр

Парсинг поисковой выдачи Google по ключевым словам — подробный гайд как сделать парсер Гугл (аналог вордстат в Гугл)

Любой SEO специалист знает, какая боль собирать семантику для Гугла. Одно дело, когда запросы можно пересчитать по пальцам, а когда они исчисляются тысячами, а не штуками? Как посмотреть количество запросов в Гугл по ключевым словам? Честно говоря, когда речь заходит о десятках тысяч ключевых слов, становится не по себе — голова идёт кругом, руки тянутся к старым привычным инструментам, а реальность бросает вызов. Так уж устроен сегодняшний Google Ads: привычная связка Key Collector + Google Ads + несколько прокси больше не спасает. Наступает новая эпоха, где без прямого обращения к официальному API всё становится мрачно и сложно.

https://habr.com/ru/articles/867876/

#семантика_сайта #ключевые_слова #парсинг_данных

Парсинг поисковой выдачи Google по ключевым словам — подробный гайд как сделать парсер Гугл (аналог вордстат в Гугл)

Любой SEO специалист знает, какая боль собирать семантику для Гугла. Одно дело, когда запросы можно пересчитать по пальцам, а когда они исчисляются тысячами, а не штуками? Как посмотреть количество...

Хабр

Парсинг сайта на Python для НСИ

Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

https://habr.com/ru/articles/860874/

#python #нси #erpсистемы #парсинг_данных

Парсинг сайта на Python для НСИ

«Интеллект – это способность избегать выполнения работы, но так, чтобы она при этом была сделана.» Линус Торвальдс Рассуждения: В настоящее время НСИ (Нормативно-справочная информация) используется во...

Хабр

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

https://habr.com/ru/companies/amvera/articles/859990/

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Приветствую, дорогие коллеги и энтузиасты мира разработки! Сегодня я рад представить вам новый увлекательный проект, который, несомненно, заинтересует как начинающих, так и опытных разработчиков. Речь...

Хабр

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно "качают" эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем - то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике. И так мы взяли две топовые клиники г. Москвы, далее для простоты будем называть их Клиника_1 и Клиника_2. У Клиники_2 сеть состоит из 13 точек в Москве и 3 точки в Санкт-Петербурге. У Клиники2 очень широкая и разнообразная сеть, хоть и ограниченная одним регионом присутствия (Москвой): Ø 3 шт. клинико-диагностических центра; Ø 27 шт. детских клиник; Пару слов о нас. Мы команда из 2-х человек. Владелец продукта и разработчик. Опыт в ИТ в корпоративном сегменте за плечами довольно большой. Первые приложения писали еще в начале 2000-х (тогда они назывались программами). За последние несколько лет перепробовали много разных идей и гипотез, участвовали и побеждали в хакатонах, Цифровой прорыв и т.п. Оба работаем в двух крупных компаниях: топ1 в цифровом дизайне/маркетинге и топ2 в банковском секторе. Цель данного исследования - попробовать себя на рынке парсинга данных. И это далеко не первае наше упражнение на тему парсинга. Ранее мы уже парсили крупные порталы рунета, также в моей предущей статье можно найти опыт реального парсинга twitter. В этот раз Дидом переводит html в объект

https://habr.com/ru/articles/829012/

#парсинг_сайтов #парсинг #парсинг_данных

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Всем привет! Сегодня поговорим о парсинге данных с сайтов сетей медицинских клиник. Мы выбрали это направление по двум причинам: 1- это высокодоходный бизнес; 2 - все катаклизмы, которые происходят в...

Хабр

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов...

Хабр

Танцы с парсингом, kubernetes и миграция в Yandex Cloud: как мы делали Kontragent.io

Речь пойдёт о сервисе, который изначально мы задумали как внутрикорпоративную систему проверки контрагентов, а затем разработали как коммерческий продукт. Коротко расскажем о том, что делает система, с какими проблемами столкнулись при разработке и как их решали, как запускали, разворачивали, и немного коснемся того, что “под капотом” у DevOps. Полагаю, что пост позволит оценить усилия команды при создании сервиса, подсветит использование некоторых технических решений, которые нам показались оптимальными, покажет типичные проблемы систем с парсингом из множества разнотипных источников, и будет полезен коллегам при разработке других продуктов. Я честно постараюсь минимизировать рекламную составляющую до короткого дисклеймера и избавить пост от маркетинг булшит.

https://habr.com/ru/companies/eaeconsult/articles/792362/

#парсинг_данных #проверка_контрагентов #kubernetes #jenkins #антикапча #elastic #яндексоблако #selenium #graphql_api #миграция_в_яндексоблако

Танцы с парсингом, kubernetes и миграция в Yandex Cloud: как мы делали Kontragent.io

Речь пойдёт о сервисе для проверки контрагентов, который мы продаём как коммерческий продукт и используем сами. Коротко расскажем о том, что делает система, с какими проблемами столкнулись при...

Хабр

[Перевод] Быстрый парсинг 8-битных целых чисел

Допустим, вам нужно быстро распарсить 8-битные целые числа (0, 1, 2, …, 254, 255) из строки ASCII/UTF-8. Задача взята из проекта simdzone под руководством Йероена Коеккоека (NLnet Labs). Дана строка и её длина: например, ’22’ и длина 2. Наивное решение на C может выглядеть так:

https://habr.com/ru/articles/784102/

#ascii #парсинг_данных #utf8 #работа_со_строками

Быстрый парсинг 8-битных целых чисел

Допустим, вам нужно быстро распарсить 8-битные целые числа (0, 1, 2, …, 254, 255) из строки ASCII/UTF-8. Задача взята из проекта simdzone под руководством Йероена Коеккоека (NLnet Labs). Дана строка...

Хабр