Arint - SEO+KI (@[email protected])

<p>RT @TheGeorgePu: 49 % meiner Website-Besucher sind Bots/KI-Crawler.</p> <p><a href="https://arint.info/@Arint/116678585792647666">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Anzeigen #Crawler #KI #Traffic #Verleger #Webseiten #arint_info</p> <p><a href="https://x.com/TheGeorgePu/status/2061233289554198786#m">https://x.com/TheGeorgePu/status/2061233289554198786#m</a></p>

Mastodon Glitch Edition

CGE: визуализация кравлера и скрытых связей между поддоменами

Привет, Хабр! Хотелось бы поделиться с вами моим open-source проектом для поиска директорий, поддоменов, ака crawler. Я не говорю, что он перевернёт мир краулеров или превзойдёт Katana, но, думаю, утилита будет крайне полезна для red team-команды. https://github.com/a11mut3d/CGE Проблемы, которые решает CGE Современное веб-приложение — это не монолит, где всё в одном HTML, а куча микросервисов, API и в целом эндпоинтов. Составить карту всех запросов достаточно сложно, поэтому вы не видите картину целиком. CGE помогает в этой задаче. Он: — собирает все поддомены из SSL-сертификата (как в crt.sh ); — краулит каждый эндпоинт, парсит HTML, JS, формы, аплоады, файлы; — отслеживает, куда идут запросы в реальном времени через взаимодействие с формами; — строит граф взаимодействия эндпоинта в реальном времени. Как это выглядит На данный момент у CGE есть 2 варианта использования: web UI и CLI. Если про CLI особо и нечего расписывать (он просто выдаёт все найденные эндпоинты в консоль или по желанию сохраняет в файл), то на web UI давайте остановимся подробнее. Веб-интерфейс я постарался сделать в стиле Obsidian (спойлер: получилось не очень). — Каждая нода — хост (поддомен). — Ребро между нодами — факт HTTP-обмена информацией. — При клике на ноду мы получаем список всех эндпоинтов (даже тех, которые были замечены в запросах от других хостов). — При клике на ребро мы получаем все реальные запросы между хостами. Технические детали Реализовать я решил на Python с использованием BS, requests, DNS. В качестве базы данных я решил использовать Neo4j.

https://habr.com/ru/articles/1039020/

#Пентест #crawler #api #python_3

GitHub - a11mut3d/CGE

Contribute to a11mut3d/CGE development by creating an account on GitHub.

GitHub

So, with Google announcing "Search is going full-AI, we won't be sending traffic to the original sites any more", someone else pointed out that this eradication of the traditional search-engine compact - we let you crawl our sites to create your index, and you send visitors to our sites when relevant - means that we can, and should, block all of Google's crawlers now. If they're going to just take, take, take and give nothing back, why let them access your content at all?

But this is cute. Besides the fact that Google documents that some of their crawlers ignore robots.txt, there's this bit of fun. On this page (https://developers.google.com/crawling/docs/robots-txt/create-robots-txt), they link to "the Google list of user agents" (https://developers.google.com/crawling/docs/crawlers-fetchers/overview-google-crawlers).

However, that links to 3 separate pages of them, and *each of those pages explicitly states that is not comprehensive, but only the ones they commonly get questions about*. And of course, none of the "User-triggered fetchers" obey robots.txt, along with some others.

So Google isn't even reporting the full list of user-agents that can be used to stop their crawling.

That is some bullshit.

#Google #crawler #RobotsTxt #UserAgent #bullshit #antisocial #web #search #WebSearch #LLM #AI

Create and Submit a robots.txt File | Google Crawling Infrastructure  |  Crawling infrastructure  |  Google for Developers

A robots.txt file lives at the root of your site. Learn how to create a robots.txt file, see examples, and explore robots.txt rules.

Google for Developers
Carl!!!! Another Carl is out!!! Again, I'm torn by the urge to read it fast or to savor it. All thanks to my dear friend who introduced it to me #Dungeon #crawler #carl

Due to some problems with version 11.0.13 and 11.0.14 the #TYPO3 #Crawler for non-composer projects, a 11.0.15 release is made.

#HappyCrawling

One Open-source Project Daily

Fast and simple video download library and CLI tool written in Go

https://github.com/iawia002/lux

#1ospd #opensource #bilibili #crawler #download #downloader #go #golang #iqiyi #qq #scraper #tumblr #video #youku #youtube
GitHub - iawia002/lux: 👾 Fast and simple video download library and CLI tool written in Go

👾 Fast and simple video download library and CLI tool written in Go - iawia002/lux

GitHub

Added https://github.com/laylavish/uBlockOrigin-HUGE-AI-Blocklist to PriEco #crawler

PriEco will no longer create results out of clearly #AI slop #websites

Our fight against AI #slop doesn't end here, and we are figuring out better ways to handle them
#crawler #AI #websites #slop

Issues · laylavish/uBlockOrigin-HUGE-AI-Blocklist

A huge blocklist of manually curated sites that contain AI generated imagery for uBlock Origin & uBlacklist. - Issues · laylavish/uBlockOrigin-HUGE-AI-Blocklist

GitHub

RE: https://rheinneckar.social/@admin/116554880838480005

Kann vielleicht auch für @milan von Interesse sein. #crawler #bots

Ooh OpenAi ist gerade auf einer meiner Seiten unterwegs und ich wundere mich, warum gerade so viel Traffic auf dem Server ist
#Crawler
Welcome to the future, where AI agents hunt down alleged online copyright infringement

As readers of this blog have doubtless noticed, the latest hot tech – and investment – area involves “agentic AI”, where AI systems are allowed to operative autonomously on allocated tasks. There’s no doubt there are some exciting possibilities here, as well as some troubling issues concerning lack of control. It’s a rapidly-evolving area of research and experimentation, which makes […]

#agenticAi #agents #ai #ceaseAndDesist #crawler #digitalWatermarks #infringement #licensing #llms #patents #pricing #takedowns #universalMusicGroup https://walledculture.org/welcome-to-the-future-where-ai-agents-hunt-down-alleged-online-copyright-infringement/