NO SOUP FOR YOU!

Playwright
+ Ollama
==TRANSLITERATE==
BEAUTIFUL DATA

Build a self-auditing data pipeline that keeps my MariaDB in perfect sync.

Full workflow: https://dufospy.com/artificial-intelligence/data-mining-web-scraping-playwright-ollama

#Beautifulsoup #Playwright #data #scraping

@playwrightweb

@JamieWitter

@ollama

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам...

Хабр

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов. Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.

https://habr.com/ru/articles/1017230/

#парсинг #Selenium #BeautifulSoup #PostgreSQL #динамические_сайты #защита_от_ботов #Python #тарифы

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

Часть 1: Парсинг тарифов интернета и ТВ: Архитектура БД и бэкенд на SQL На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух...

Хабр

Парсинг сайтов на Python: изучаем BeautifulSoup

Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

https://habr.com/ru/articles/986284/

#парсинг #scraping #beautifulsoup

Парсинг сайтов на Python: изучаем BeautifulSoup

BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена:...

Хабр

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

https://habr.com/ru/articles/961590/

#python #парсинг #beautifulsoup #selectolax

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python....

Хабр

Last week I deployed a change to how I generate plain text versions of content on my website. This week I changed it again. And updated additional post types to use Markdown as their editing and storage format.

https://orangegnome.com/posts/3622/changelog-updated-plain-text-format-and-added-additional-markdown-support

#Html #WebDevelopment #Indieweb #Markdown #BeautifulSoup #Changelog #Microformats #Mistune #Html2Text

Changelog: Updated Plain Text Format and Added Additional Markdown Support | Brent Lineberry

Orange Gnome

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

https://habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

Парсинг российских СМИ

Разбираем на примере Russia Today, Коммерсант и Meduza* Возможно для вашего проекта/ресерча иногда требовалось собрать большое количество статей из каких-либо источников в виде веб-сайтов. В эпоху...

Хабр

@BuschnicK

I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...

Beautiful Soup Alternatives for Go - Rost Glukhov | Personal site and technical blog

Beautiful Soup Alternatives for Go

I'm facilitating an Open Space at #PyConUS:

Beautiful Soup: Ask Me Anything
Sun. May 18th; 2-3pm

An open questions session with @leonardr, the maintainer of screen-scraping library #BeautifulSoup. If you've ever used or tried to use it, share your questions, confusions, stuff you've made, concerns, ideas, offers of help, etc. with Leonard in person. If we don't have a ton of questions, we might do some impromptu usability testing to check whether the new type hints help you use the library.