Mastodawn

🕷️ Python scraping tip:

If BeautifulSoup returns nothing, the parser may not be the issue.

First check what your scraper actually received:
🚫 403
🚫 blocked HTML
🚫 missing rendered content

I wrote about using Web Unlocker API as an access layer before parsing with BeautifulSoup.

https://medium.com/gitconnected/how-i-scraped-modern-protected-websites-in-python-without-managing-a-single-proxy-2e0f07d30208

#Python #WebScraping #BeautifulSoup

Naty S May 23

New #blog on #BurgeonLab ✍️

➡️ https://burgeonlab.com/blog/url2md-how-to-batch-convert-url-links-to-markdown-links/

See how I batch convert links for my #weeknote link roundup quickly, with auto-fetching link titles and site name using a Python script: URL to Markdown link.

This is post 45 of #100DaysToOffload
📈 https://burgeonlab.com/tags/100daystooffload/

#blogging #blogs #guides #newpost #blogpost #smolweb #techblog #techguides #python #scripts #markdown #url #linkdump #links #beautifulsoup

url2md: A URL to Markdown Link Converter using Python Script

Learn how to batch convert plain URL links from a TXT file into a list of Markdown links using Python, handy for link dumps or link lists.

BurgeonLab

🪑Jeffrey Sabarese ♫May 13

NO SOUP FOR YOU!

Playwright
+ Ollama
==TRANSLITERATE==
BEAUTIFUL DATA

Build a self-auditing data pipeline that keeps my MariaDB in perfect sync.

Full workflow: https://dufospy.com/artificial-intelligence/data-mining-web-scraping-playwright-ollama

#Beautifulsoup #Playwright #data #scraping

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам...

Хабр

Habr Mar 31

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов. Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.

https://habr.com/ru/articles/1017230/

#парсинг #Selenium #BeautifulSoup #PostgreSQL #динамические_сайты #защита_от_ботов #Python #тарифы

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

Часть 1: Парсинг тарифов интернета и ТВ: Архитектура БД и бэкенд на SQL На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух...

Хабр

Habr Jan 18

Парсинг сайтов на Python: изучаем BeautifulSoup

Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

https://habr.com/ru/articles/986284/

#парсинг #scraping #beautifulsoup

Парсинг сайтов на Python: изучаем BeautifulSoup

BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена:...

Хабр

Habr Oct 30, 2025

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

https://habr.com/ru/articles/961590/

#python #парсинг #beautifulsoup #selectolax

Selectolax: быстрая альтернатива Beautiful Soup

Хабр

Brent Lineberry Aug 7, 2025

Last week I deployed a change to how I generate plain text versions of content on my website. This week I changed it again. And updated additional post types to use Markdown as their editing and storage format.

https://orangegnome.com/posts/3622/changelog-updated-plain-text-format-and-added-additional-markdown-support

#Html #WebDevelopment #Indieweb #Markdown #BeautifulSoup #Changelog #Microformats #Mistune #Html2Text

Changelog: Updated Plain Text Format and Added Additional Markdown Support | Brent Lineberry

Orange Gnome

Habr Jul 23, 2025

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

https://habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

Парсинг российских СМИ

Разбираем на примере Russia Today, Коммерсант и Meduza* Возможно для вашего проекта/ресерча иногда требовалось собрать большое количество статей из каких-либо источников в виде веб-сайтов. В эпоху...

Хабр

Show thread

Yendolosch Jun 6, 2025

@BuschnicK

I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...