Como han señalado los investigadores, el raspaje indiscriminado de datos recogidos de internet, además de obras creativas, incluye material sensible como informes médicos, datos biométricos y otros datos privados de millones de ciudadanos, además de abundante pornografía y material CSAM (material de abuso sexual contra niños y adolescentes).

#AI #tech #technology #CSAM #humanrights #scraping #unlawful #Amnesty #genAI #generativeAI

RT @glenngabe: „Stopp das Scraping“ – US-Verlage fordern Common Crawl auf, das Scraping einzustellen und Archive zu löschen. „Sie forderten Common Crawl auf, das „Scraping, die Speicherung oder die Weitergabe von urheberrechtlich geschützten, paywalled, nur für Abonnenten zugänglichen oder anderweitig geschützten Inhalten der DCN-Mitgliedsunternehmen in ihren Datensätzen“ unverzüglich zu stoppen.“ „Sie forderten zudem, dass bereits in den Common Crawl-Datensätzen enthaltene Verlagsinhalte entfernt werden.“

mehr auf Arint.info

#CommonCrawl #Datenschutz #Paywall #Scraping #Urheberrecht #USVerlage #arint_info

https://x.com/glenngabe/status/2064318799138918523#m

Arint - SEO+KI (@[email protected])

<p>RT @glenngabe: „Stopp das Scraping“ – US-Verlage fordern Common Crawl auf, das Scraping einzustellen und Archive zu löschen. „Sie forderten Common Crawl auf, das „Scraping, die Speicherung oder die Weitergabe von urheberrechtlich geschützten, paywalled, nur für Abonnenten zugänglichen oder anderweitig geschützten Inhalten der DCN-Mitgliedsunternehmen in ihren Datensätzen“ unverzüglich zu stoppen.“ „Sie forderten zudem, dass bereits in den Common Crawl-Datensätzen enthaltene Verlagsinhalte entfernt werden.“</p> <p><a href="https://arint.info/@Arint/116732329776463128">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#CommonCrawl #Datenschutz #Paywall #Scraping #Urheberrecht #USVerlage #arint_info</p> <p><a href="https://x.com/glenngabe/status/2064318799138918523#m">https://x.com/glenngabe/status/2064318799138918523#m</a></p>

Mastodon Glitch Edition
Angeblicher TikTok-Mega-Leak: 2,4 Milliarden Datensätze im Umlauf

Hacker verkaufen auf DarkForums im Rahmen eines TikTok-Mega-Leaks 2,4 Mrd. Nutzer-Datensätze. Doch das Portal wurde offenbar nicht gehackt.

TARNKAPPE.INFO
US #publishers, represented by #DigitalContentNext, have sent a cease and desist letter to #CommonCrawlFoundation, demanding they stop #scraping and sharing #copyright|ed content from their member companies. https://pressgazette.co.uk/media_law/common-crawl-ai-news-publishers-scraping-cease-and-desist-letter/?eicker.news #tech #media #news
US publishers tell Common Crawl to stop scraping and delete archive

Digital news publishers in the US have raised “significant legal concerns” over the continued scraping of their content by Common Crawl.

Press Gazette

We love free and instant weather data. Check out the OSINTCabal Weather Scraper for free on our website with exportable results!

https://osintcabal.org/livecenter/weatherscraper.html

#OSINT #OSINTtool #osinttools #opendata #openapi #apidata #weatherdata #weatherapi #scraping #osint4good

RT @glenngabe: „Stopp das Scraping“ – US-Verlage fordern Common Crawl auf, das Scraping einzustellen und Archive zu löschen. Sie forderten Common Crawl auf, das „Scraping, die Speicherung oder die Weitergabe urheberrechtlich geschützter, paywall-geschützter, nur für Abonnenten zugänglicher oder anderweitig geschützter Inhalte von DCN-Mitgliedsunternehmen in ihren Datensätzen“ unverzüglich zu stoppen. Zudem wurde die Entfernung bereits in den Common-Crawl-Datensätzen vorhandener Verlagsinhalte gefordert.

mehr auf Arint.info

#CommonCrawl #Datenschutz #Paywall #Scraping #Urheberrecht #USVerlage #arint_info

https://x.com/glenngabe/status/2064318799138918523#m

Arint - SEO+KI (@[email protected])

<p>RT @glenngabe: „Stopp das Scraping“ – US-Verlage fordern Common Crawl auf, das Scraping einzustellen und Archive zu löschen. Sie forderten Common Crawl auf, das „Scraping, die Speicherung oder die Weitergabe urheberrechtlich geschützter, paywall-geschützter, nur für Abonnenten zugänglicher oder anderweitig geschützter Inhalte von DCN-Mitgliedsunternehmen in ihren Datensätzen“ unverzüglich zu stoppen. Zudem wurde die Entfernung bereits in den Common-Crawl-Datensätzen vorhandener Verlagsinhalte gefordert.</p> <p><a href="https://arint.info/@Arint/116723815689531556">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#CommonCrawl #Datenschutz #Paywall #Scraping #Urheberrecht #USVerlage #arint_info</p> <p><a href="https://x.com/glenngabe/status/2064318799138918523#m">https://x.com/glenngabe/status/2064318799138918523#m</a></p>

Mastodon Glitch Edition

Leute, verbindet euren Smart-Fernseher nicht mit dem Internet / WLAN! Die Gefahr, dass dadurch euer Internet / WLAN missbraucht wird, ist zu groß.

https://blog.includesecurity.com/2026/06/the-smart-tv-in-your-livingroom-is-a-node-in-the-aiscraping-economy/

#SmartTV #WLAN #BrightData #KI #AI #Scraping #Fernsehen #Fernseher #Internet #Proxy #DiDay

The Smart TV in Your LivingRoom Is a Node in the AIScraping Economy - Include Security Research Blog

In this post we look under the hood of BrightData's SDK and how it turns ordinary consumer TVs into exit nodes of an enormous commercial, residential proxy network leveraged by the AI industry to scrape web data and train language learning models.

Include Security Research Blog
Is this server allowing #scraping for researchers?

📡 The Smart TV in Your LivingRoom Is a Node in the AIScraping Economy

「 Bright Data is a data-collection company that sells access to what it markets as the world’s largest residential proxy network of 400M+ home IP addresses that its customers route web-scraping traffic through. The supply behind that network comes from an SDK 」

https://blog.includesecurity.com/2026/06/the-smart-tv-in-your-livingroom-is-a-node-in-the-aiscraping-economy/

#ai #scraping #privacy

The Smart TV in Your LivingRoom Is a Node in the AIScraping Economy - Include Security Research Blog

In this post we look under the hood of BrightData's SDK and how it turns ordinary consumer TVs into exit nodes of an enormous commercial, residential proxy network leveraged by the AI industry to scrape web data and train language learning models.

Include Security Research Blog

Clearing up a couple of things about “bot checks”. Who you should be mad at, why you’re seeing them — and why we’re most likely only going to see more of them.

https://www.alex-kunz.com/bot-checks-are-a-nuisance-but-whats-the-alternative/

#BlogPost #AI #Webmaster #Cloudflare #Captcha #Bots #Scraping #Copyright #IntellectualProperty #Photography

Bot-Checks Are a Nuisance (But What’s the Alternative?)

Clearing up a couple of things about “bot checks”. Who you should be mad at, why you’re seeing them — and why we’re most likely only going to see more of them.

Alexander S. Kunz Photography