Researchers Hack ChatGPT Memories and Web Search Features

attackers can set up a new website that is likely to show up in web search results for niche topics. ChatGPT relies on Bing and OpenAI’s crawler for web searches.

#chatgpt #openai #bing #webcrawler #security #cybersecurity #hackers #hacking #hacked

https://www.securityweek.com/researchers-hack-chatgpt-memories-and-web-search-features/

Researchers Hack ChatGPT Memories and Web Search Features

Rsearchers recently discovered seven new ChatGPT vulnerabilities and attack techniques that can be exploited for data theft.

SecurityWeek

Was ist denn da seit ein paar Tagen für ein
#Crawler auf meiner Webseite unterwegs? So viele Connections vom Webserver sehe ich nicht immer.

Mal schauen, wann der durch ist. Laut Check der IPs: CHINANET, 21ViaNet(China),Inc., Tencent cloud computing (Beijing)
#China #Webcrawler

Hébergeur de site, mon prototype de crawler d’actualité indép. vous dérange; ou au contraire vous souhaitez plus de détails ? N'hésitez pas à me contacter.

#searchengine #WebCrawler #noia #oldschool

Wikipedia verzeichnet Besucherrückgang durch KI und Social Media
Wikipedia verliert im Jahr 2025 Besucher:innen. Grund dafür sind künstliche Intelligenz in Suchmaschinen und die wachsende Nutzung sozialer Medien.

Wikipedia: Weniger Seitenaufrufe durch KI und
https://www.apfeltalk.de/magazin/news/wikipedia-verzeichnet-besucherrueckgang-durch-ki-und-social-media/
#KI #News #Besucherzahlen #Google #KnstlicheIntelligenz #PewResearch #SocialMedia #Webcrawler #Wikipedia #Wissensplattform

Wikipedia verzeichnet Besucherrückgang durch KI und Social Media

Wikipedia verliert 2025 Nutzer:innen wegen KI-Zusammenfassungen in Suchmaschinen und dem Trend zu sozialen Video-Plattformen.

Apfeltalk Magazin

8 Web Scraping & Crawling Tools mit n8n-Anbindung (Workflow-Vorlage zum kostenlosen Download)

Wir schauen uns heute an, wie ihr Web Scraping und Crawling betreiben könnt. Dazu schauen wir uns 8 verschiedene Tools an und verbinden diese auch direkt mit n8n, damit ihr die extrahierten Daten in einem Workflow weiter verarbeiten könnt.

https://www.youtube.com/watch?v=LP571gnIg7A

#n8n #ki #automatisierung #webscraping #webcrawler #webscraper

8 Web Scraping & Crawling Tools mit n8n-Anbindung (Workflow-Vorlage zum kostenlosen Download)

YouTube

https://social.emucafe.org/naferrell/user-agent-godhatesmastodon-08-22-25/

The New Leaf Journal became inaccessable for about 1-2 minutes this morning. Fortunately, I opened the site almost immediately when it happened. I opened my server logs and found what was probably the offending bot/scraper so I could block it. I kept the server logs open to watch for any other questionable activity. I saw an interesting user-agent string.

Aug 22 11:22:46 [IP ADDRESS] - - [22/Aug/2025:15:22:46 +0000] "GET / HTTP/1.1" 200 63425 "-" "GodHatesMastodon"

My two sites are often crawled by Mastodon servers and Fediverse-related crawlers because both sites function as ActivityPub servers (you can follow this account on the Fediverse at @naferrell@social.emcafe.org). I had not previously seen the crawler GodHatesMastodon, but I understand through the grapevine that there are some questionable instances out there. Fortunately, there is no reason for anyone to hate The New Leaf Journal. As my friend and colleague Victor V. Gurbo once explained, “The New Leaf Journal is a family website.”

#activitypub #fediverse #mastodon #webCrawler

[Note] User Agent Watch: GodHatesMastodon

I saw an interesting user agent in my WordPress site server logs: “GodHatesMastodon”.

The Emu Café Social
#Firecrawl, an #opensource #webcrawler for #developers and #AIagents, raised $14.5 million in a Series A round led by Nexus Venture Partners. The company, which is already profitable, plans to use the funds to expand its team and develop tools to help website owners get paid when AI uses their content. https://techcrunch.com/2025/08/19/ai-crawler-firecrawl-raises-14-5m-is-still-looking-to-hire-agents-as-employees/?Pirates.BZ #Pirates #Tech #Startup #News
AI crawler Firecrawl raises $14.5M, is still looking to hire agents as employees | TechCrunch

Firecrawl nabbed Shopify’s CEO Tobias Lütke as an investor from a gutsy email after they discovered he was using the product.

TechCrunch
eigentlich wärs ja cool wenns einen standardisierten ort gäbe, wo sich #webcrawler einen dump der jeweiligen website abholen können. so mit allen sachen die von suchmaschinen geindext werden sollen. könnte einfach unter einer https://en.wikipedia.org/wiki/Well-known_URI liegen.
Well-known URI - Wikipedia

Cloudflare sperrt den Perplexity-Bot.

Cloudflare wirft Perplexity „Stealth Crawling“ vor 🕵️ Laut #Cloudflare umgeht der #KI-Suchdienst #Perplexity gezielt #Sperren gegen seine #Webcrawler, indem er seine #Identität verschleiert.

Techniken zur Umgehung von Blockaden 🔄 Perplexity soll Bots als Chrome-Browser tarnen, IP-Adressen rotieren und Netzwerkkennungen ändern, um weiter Inhalte abzugreifen. (1/2)

Perplexity AI przyłapane na gorącym uczynku. Firma miała potajemnie omijać blokady stron

Firma Cloudflare, gigant w dziedzinie bezpieczeństwa i infrastruktury internetowej, opublikowała raport oskarżający popularną wyszukiwarkę AI, Perplexity, o stosowanie nieetycznych praktyk.

Według dochodzenia, Perplexity miało używać potajemnych, niezadeklarowanych crawlerów do pobierania treści ze stron internetowych, które wyraźnie zablokowały dostęp dla botów tej firmy.

Dochodzenie Cloudflare zostało wszczęte po skargach od klientów, którzy zauważyli, że Perplexity wciąż indeksuje ich witryny, mimo zastosowania blokad.  Jak się okazało, mechanizm działania był prosty, ale skuteczny. Gdy standardowy bot Perplexity (PerplexityBot) napotykał blokadę, firma miała przełączać się na „tryb stealth”. Używała wtedy crawlerów z generycznym identyfikatorem przeglądarki (np. Chrome), które dodatkowo działały z puli niezgłoszonych adresów IP i różnych sieci, aby ukryć swoją prawdziwą tożsamość. Co najważniejsze, te potajemne boty w ogóle nie próbowały odczytać pliku robots.txt – pliku, w którym właściciele stron określają zasady dla botów.

Skala problemu była ogromna. Cloudflare zaobserwowało takie zachowanie na dziesiątkach tysięcy domen, a liczba zapytań od ukrytych botów Perplexity sięgała milionów dziennie. To praktyka stojąca w sprzeczności z działaniami innych firm, jak OpenAI, które jasno deklarują swoje boty i respektują dyrektywy zawarte w plikach robots.txt skonfigurowanych przez właścicieli stron.

W odpowiedzi na te odkrycia, Cloudflare podjęło zdecydowane kroki. Po pierwsze, firma usunęła Perplexity ze swojej listy „zweryfikowanych botów”, co utrudni jego interakcje ze stronami chronionymi przez Cloudflare.  Po drugie, wprowadzono nowe, heurystyczne zabezpieczenia do swoich reguł. Zamiast blokować konkretne, znane boty, system będzie teraz automatycznie wykrywał i blokował podejrzane zachowania, takie jak próba ukrycia tożsamości przez crawlera. Ochrona ta jest dostępna dla wszystkich klientów Cloudflare. Co ważne, z wdrożonej ochrony przez Cloudflare mogą skorzystać nie tylko podmioty odpłatnie korzystające z usług sieciowego giganta, ale także użytkownicy planów darmowych.

Koniec z przeglądaniem, czas na działanie. Perplexity rzuca wyzwanie Google z przeglądarką AI Comet

#AI #Cloudflare #cyberbezpieczeństwo #news #PerplexityAI #prywatność #robotsTxt #scrapowanieDanych #sztucznaInteligencja #webCrawler