GETadb.com – every GET request creates a DB
#HackerNews #GETadb #GET #requests #database #web #development #tech #news
GETadb.com – every GET request creates a DB
#HackerNews #GETadb #GET #requests #database #web #development #tech #news
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
🎉 requests-docs-l10n is published!
🚀 Preview:
https://projects.localizethedocs.org/requests-docs-l10n
🌐 Crowdin:
https://localizethedocs.crowdin.com/requests-docs-l10n
🐙 GitHub: