I hate the current app economy.
I hate the current app economy.
J'ai codé un webcrawler avec AMPHP pour remplacer Crowl parce que "pourquoi pas". C'était plus long et compliqué que j'aurais pensé.
Du coup je vous présente Phrawler. 🐘
https://lanterne-rouge.info/2026/06/phrawler-encore-un-crawler
Urgh. I just plotted the http requests per month to one of my subdomains. It is depressing.
I had this domain shut down between Oct 2025 and about a week ago - which is likely why the requests dropped significantly. But June 2026 is shaping up to be the highest load month (yes, it is only the 9th!).
Today, I put basic auth with a guessable password around the whole domain. We'll see what that'll do.
Ein Teil der Bots, die mit Browser-Kennung auf meine Media-Site zugreifen, kommen aus Mobilfunk-Netzen aus Asien, von Indien bis Vietnam. Dort werden die Telefone wohl nicht so wirklich abgesichert.
And finally, #btracker instance for #I2P
http://btrackrqkjp6kgelov5a3uxisis77ofxqt5nvy5hvvtoybjpmq4q.b32.i2p
* at this moment, crawler does not support B32 address family by the #librqbit dependency, but the catalog already returns the actual I2P peers for existing torrents from Yggdrasil and Mycelium nodes
RT @TheGeorgePu: 49 % meiner Website-Besucher sind Bots/KI-Crawler.
mehr auf Arint.info
#Anzeigen #Crawler #KI #Traffic #Verleger #Webseiten #arint_info
<p>RT @TheGeorgePu: 49 % meiner Website-Besucher sind Bots/KI-Crawler.</p> <p><a href="https://arint.info/@Arint/116678585792647666">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Anzeigen #Crawler #KI #Traffic #Verleger #Webseiten #arint_info</p> <p><a href="https://x.com/TheGeorgePu/status/2061233289554198786#m">https://x.com/TheGeorgePu/status/2061233289554198786#m</a></p>
CGE: визуализация кравлера и скрытых связей между поддоменами
Привет, Хабр! Хотелось бы поделиться с вами моим open-source проектом для поиска директорий, поддоменов, ака crawler. Я не говорю, что он перевернёт мир краулеров или превзойдёт Katana, но, думаю, утилита будет крайне полезна для red team-команды. https://github.com/a11mut3d/CGE Проблемы, которые решает CGE Современное веб-приложение — это не монолит, где всё в одном HTML, а куча микросервисов, API и в целом эндпоинтов. Составить карту всех запросов достаточно сложно, поэтому вы не видите картину целиком. CGE помогает в этой задаче. Он: — собирает все поддомены из SSL-сертификата (как в crt.sh ); — краулит каждый эндпоинт, парсит HTML, JS, формы, аплоады, файлы; — отслеживает, куда идут запросы в реальном времени через взаимодействие с формами; — строит граф взаимодействия эндпоинта в реальном времени. Как это выглядит На данный момент у CGE есть 2 варианта использования: web UI и CLI. Если про CLI особо и нечего расписывать (он просто выдаёт все найденные эндпоинты в консоль или по желанию сохраняет в файл), то на web UI давайте остановимся подробнее. Веб-интерфейс я постарался сделать в стиле Obsidian (спойлер: получилось не очень). — Каждая нода — хост (поддомен). — Ребро между нодами — факт HTTP-обмена информацией. — При клике на ноду мы получаем список всех эндпоинтов (даже тех, которые были замечены в запросах от других хостов). — При клике на ребро мы получаем все реальные запросы между хостами. Технические детали Реализовать я решил на Python с использованием BS, requests, DNS. В качестве базы данных я решил использовать Neo4j.
So, with Google announcing "Search is going full-AI, we won't be sending traffic to the original sites any more", someone else pointed out that this eradication of the traditional search-engine compact - we let you crawl our sites to create your index, and you send visitors to our sites when relevant - means that we can, and should, block all of Google's crawlers now. If they're going to just take, take, take and give nothing back, why let them access your content at all?
But this is cute. Besides the fact that Google documents that some of their crawlers ignore robots.txt, there's this bit of fun. On this page (https://developers.google.com/crawling/docs/robots-txt/create-robots-txt), they link to "the Google list of user agents" (https://developers.google.com/crawling/docs/crawlers-fetchers/overview-google-crawlers).
However, that links to 3 separate pages of them, and *each of those pages explicitly states that is not comprehensive, but only the ones they commonly get questions about*. And of course, none of the "User-triggered fetchers" obey robots.txt, along with some others.
So Google isn't even reporting the full list of user-agents that can be used to stop their crawling.
That is some bullshit.
#Google #crawler #RobotsTxt #UserAgent #bullshit #antisocial #web #search #WebSearch #LLM #AI