Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках

Автоматический сбор данных (парсинг сайтов, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен...

Хабр

[Перевод] Ищем баги в коде браузера при помощи фаззинга

Наш браузер Ladybird неплохо справляется с качественно отформатированным веб-контентом, но я решил, что будет полезно проверить его инструментами для исследования безопасности. Поэтому сегодня мы воспользуемся Domato 🍅 — DOM-фаззером из Google Project Zero , чтобы провести стресс-тест Ladybird и устранить найденные в процессе ошибки. Работает это следующим образом: Domato генерирует рандомизированные веб-страницы со множеством по большей части валидного, но странного HTML, CSS и JavaScript. Я загружу эти страницы в отладочную сборку Ladybird и посмотрю, что получится.

https://habr.com/ru/articles/813435/

#ladybird #serenityos #фаззинг #тестирование #парсинг_html

Ищем баги в коде браузера при помощи фаззинга

Наш браузер Ladybird  неплохо справляется с качественно отформатированным веб-контентом, но я решил, что будет полезно проверить его инструментами для исследования безопасности. Поэтому сегодня...

Хабр

[Перевод] Доводы против самозакрывающихся тегов в HTML

Самозакрывающиеся теги - зло? Prettier не прав? Разбор с примерами острой темы в HTML, где все будет разложено по полочкам

https://habr.com/ru/articles/810945/

#HTML #XML #XHTML #HTML5 #JSX #Самозакрывающиеся_теги #Парсинг_HTML

Доводы против самозакрывающихся тегов в HTML

Давайте поговорим о /> : <input type="text" /> <br /> <img src="…" /> Вы видели этот синтаксис в моем блоге, потому что это то, что делает Prettier и мне нравится Prettier, однако...

Хабр