Mastodawn

Habr Jul 4, 2024

Массовое вытаскивание урлов из нескольких xml карт сайта

Периодически приходится решать достаточно интересные задачи, а иногда достаточно нудные и скучные, когда надо просто механически повторять один и тот же порядок действий, и длиться это может достаточно долго. что отнимает ресурс в виде времени. Ну а зачем тратить час на ручную работу, если можно потратить 2 часа на то, чтобы это автоматизировать, правда? Сказал бы я вот так и потратил бы на это часа три, а то и четыре. Но слава нейросетям, помогают сократить это время до минимума. Суть задачи - надо вытащить урлы из xml карты сайта, но карта разбита на несколько мелких карт по 1000 урлов, соответсвенно это осложняет процесс загрузки этих урлов. Резонный вопрос, а на кой ляд тебе понадобились эти урлы? Для того, чтобы отправить их на индексацию через Google Indexing API, как я это называю - принудительная отправка на индексацию большого массива. Можно пойти простым путем, открывать каждый урл руками, сохранять его как xml на своем компьютере, далее собрать их все в одну папку и открыть принудительно все скопом через Power Query (кто не знает. что есть такая офигенная штука у Гугл таблиц - с добрым утром, рекомендую погуглить). Но открыть 100 ссылок руками - ну такое, правда? Поэтому, за 1 минуту был сгенерирован скрипт на Питоне, которые решил задачу за 1,5 минуты. Мне не понадобилось много времени, скрипт заработал со второго раза, поэтому я делюсь им с вами, может кому будет полезен.

https://habr.com/ru/articles/826598/

#python #beautifulsoup4 #pip #script

Массовое вытаскивание урлов из нескольких xml карт сайта

Периодически приходится решать достаточно интересные задачи, а иногда достаточно нудные и скучные, когда надо просто механически повторять один и тот же порядок действий, и длиться это может...

Хабр

Habr Apr 23, 2024

Автоматизация скачивания документов из контрактов с площадки ЕИС при помощи Python

В настоящее время информация о государственных контрактах является важным ресурсом для многих исследований и аналитических работ. Однако сбор этой информации может быть трудоемким процессом, особенно когда речь идет о большом количестве контрактов. В этой статье мы рассмотрим, как можно использовать язык программирования Python и некоторые его библиотеки для автоматизации процесса скачивания документов из государственных закупок, а также как логировать исключения с помощью библиотеки Loguru.

https://habr.com/ru/articles/809649/

#loguru #requests #beautifulsoup4 #госзакупки

Автоматизация скачивания документов из контрактов с площадки ЕИС при помощи Python

В настоящее время информация о государственных контрактах является важным ресурсом для многих исследований и аналитических работ. Однако сбор этой информации может быть трудоемким процессом, особенно...

Хабр

Habr Dec 14, 2023

Бенчмарк HTML парсеров в Python: сравнение скорости

Привет, Хабр! Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга. При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией. Ремарка: выбор библиотеки зависит от конкретных требований проекта, также существует еще множество инструментов, которые не были освещены в данной статье, к примеру «Scrapy» — это мощный асинхронный фреймворк. В исследовании акцентируется внимание на более простой задаче, поэтому я не гарантирую что лидер бенчмарка подойдет именно вам. Помните о важности проведения собственных тестов и анализа требований вашего проекта перед принятием решения. В качестве задачи используем поисковик нашего любого habr.com , в который отправим запрос с ключевыми словами «html parsing python» и соберем следующие данные по каждой статье: имя автора, заголовок, дату создания статьи, количество просмотров и голоса (оценки).

https://habr.com/ru/companies/vsk_insurance/articles/780500/

#benchmark #бенчмарк #html #parsing #python #beautifulsoup4 #lxml #parsel #requestshtml #selectolax

Бенчмарк HTML парсеров в Python: сравнение скорости

Привет, Хабр! Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности...

Хабр

Ruben Borg Nielsen Aug 16, 2023

Gotta say working with #openxml (#ooxml) is scary. The Open XML Sdk is so low level with no guard rails. Must understand all of the underlying XML to be able to do anything meaningful, so what’s the point? And all the libraries I’ve looked at doesn’t support what I want to do.
At this point, I’m taking a swing at processing the XML by hand with #beautifulsoup4. Seems to do the trick 😅

Brian

May 3, 2022

Spends a bit of time writing a web scraper for the League of Comics website, and totally remember why I never spend my time on web scrapers. #python #beautifulsoup4

chawen Mar 10, 2019

Crawler de webs de LaNación y Página12 en busca de las palabras más usadas de los artículos de la portada.

Usando python3 con urllib para requests y beautifulsoup4 para parsear

#noticias #argentina #crawler #python #pagina12 #lanacion #macri #gato #urllib #beautifulsoup #beautifulsoup4 #datos #analisis

Qyv (;* has moved *;) 🍍Sep 14, 2018

So I've been playing with #Python again, finally realised how to fix a problem with conflicting versions of #beautifulsoup4. Not bs4's fault, but actually a problem with #pycaption requiring an older version of it.

Turned out all I needed to do was to tweak the setup.py for pycaption, correct the dependencies versioning, clean, rebuild, and re-install locally.

Now I don't have to be careful how I run #Gnomecast (:*