Парсинг сайтов на Python: изучаем BeautifulSoup

Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

https://habr.com/ru/articles/986284/

#парсинг #scraping #beautifulsoup

Парсинг сайтов на Python: изучаем BeautifulSoup

BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена:...

Хабр

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

https://habr.com/ru/articles/961590/

#python #парсинг #beautifulsoup #selectolax

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python....

Хабр

Last week I deployed a change to how I generate plain text versions of content on my website. This week I changed it again. And updated additional post types to use Markdown as their editing and storage format.

https://orangegnome.com/posts/3622/changelog-updated-plain-text-format-and-added-additional-markdown-support

#Html #WebDevelopment #Indieweb #Markdown #BeautifulSoup #Changelog #Microformats #Mistune #Html2Text

Changelog: Updated Plain Text Format and Added Additional Markdown Support | Brent Lineberry

Orange Gnome

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

https://habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

Парсинг российских СМИ

Разбираем на примере Russia Today, Коммерсант и Meduza* Возможно для вашего проекта/ресерча иногда требовалось собрать большое количество статей из каких-либо источников в виде веб-сайтов. В эпоху...

Хабр

@BuschnicK

I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...

Beautiful Soup Alternatives for Go - Rost Glukhov | Personal site and technical blog

Beautiful Soup Alternatives for Go

I'm facilitating an Open Space at #PyConUS:

Beautiful Soup: Ask Me Anything
Sun. May 18th; 2-3pm

An open questions session with @leonardr, the maintainer of screen-scraping library #BeautifulSoup. If you've ever used or tried to use it, share your questions, confusions, stuff you've made, concerns, ideas, offers of help, etc. with Leonard in person. If we don't have a ton of questions, we might do some impromptu usability testing to check whether the new type hints help you use the library.

#python and #BeautifulSoup is why I ❤️ #LibreOffice!

# This belongs in Scripts/python/securities.py in securities.ods/

import uno
import unohelper
from com.sun.star.lang import Locale
from com.sun.star.awt import Rectangle
from com.sun.star.table import CellRangeAddress

from datetime import datetime, timedelta

import os
import sys
import ssl
from bs4 import BeautifulSoup
import json
import urllib.request
import re
from collections import defaultdict

doc = XSCRIPTCONTEXT.getDocument()
...

Little bit of automation for my leads

Yesterday I wrote about trying to automate more of my manual process of trying to find suitable backlinks to my blog in my post More SEMRush. Today, I was - Technology

Things I Tried
WIP: #jobhunt with #beautifulsoup (i hate capitalism)