I'm slightly creeped out but not surprised. I was editing a music score on my laptop recently and I added an instruction to play the piece "robotic". The next time I logged into Indeed, the first job recommendation to come up is for Robotics Operator. Is Indeed scraping data from my recent documents for keywords?

Always check your firewall.

#scraping #datascraping

[위키피디아 25년 만의 대전환, AI 기업들과 유료 계약 체결

위키피디아가 25년 만에 처음으로 AI 기업들과 유료 계약 체결하며, AI 시대의 생존 전략을 모색하고 있다. AI 봇의 대량 스크래핑으로 인한 서버 비용 증가와 방문자 감소, 콘텐츠 품질 저하 등의 문제를 해결하기 위해 상업적 유료 계약을 체결한 것.

https://news.hada.io/topic?id=25976

#wikipedia #ai #openknowledge #datascraping #commercialcontract

위키피디아 25년 만의 대전환, AI 기업들과 유료 계약 체결 | GeekNews

위키피디아가 "공짜로 모두에게 열린 지식"이라는 정체성은 유지하면서도, AI 시대의 현실적인 생존 전략으로 첫걸음을 뗐다.위기 상황AI 기업들의 대량 무단 스크래핑으로 서버 비용 폭증2024년 1월~2025년 4월 멀티미디어 다운로드 대역폭 50% 급증그중 65%가 AI 봇 트래픽봇 차단 강화 후 실제 인간 방문자 약 8% 감소기존 선순환 구조(방문 → 기

GeekNews

Get Property Intelligence Powered by Real Estate Data Scraping Services

Explore how quality data collection can elevate your real estate strategy: https://www.hitechbpo.com/real-estate-data-scraping-services.php

#realestatedata #datascraping #propertyinsights #datasolutions

Real Estate Data Scraping Services | Property Data Extraction

Hitech BPO

🚀 Want to dive into data scraping? Check out MediaCrawler by NanmiCoder! This powerful tool lets you harvest comments and content from popular platforms like Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Baidu Tieba, and Zhihu. Perfect for learning and research—just remember to use it responsibly! 📊💻

Explore more here: https://github.com/NanmiCoder/MediaCrawler

#DataScraping #TechTools #OpenSource

GitHub - NanmiCoder/MediaCrawler: 小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫 - NanmiCoder/MediaCrawler

GitHub

The “17.5 million Instagram user data leak” making rounds in 2026? Old news

The data from 2022 was already leaked in 2023.

We broke down all 3 dumps - same records

Don’t fall for clickbait reports!

Read: https://hackread.com/instagram-user-data-leak-scraped-records-2022/

#Instagram #DataLeak #Cybersecurity #Privacy #DataScraping

Instagram’s “17 Million User Data Leak” Was Just Scraped Records from 2022

Follow us on Bluesky, Twitter (X), Mastodon and Facebook at @Hackread

How Data Scraping Powers Dynamic Pricing

Data scraping helps businesses track market trends, competitor prices, and demand changes in real time. Access to structured, reliable data supports smarter pricing decisions, improves analytics, and strengthens AI models while maintaining data quality and compliance.

Read more: https://www.habiledata.com/blog/how-data-scraping-powers-dynamic-pricing/

#DataScraping #BusinessIntelligence #Ecommerce

Tự động hóa trình duyệt miễn phí & tự lưu trữ **Doppelgänger** giúp khắc phục hạn chế của các nền tảng trả phí như Apify với: ✅ Không phí chạy tác vụ ✅ Tự lưu trữ, dữ liệu an toàn ✅ Hỗ trợ JSON và JavaScript linh hoạt. Cải thiện quy trình trích xuất dữ liệu bị thiếu hoặc chứa trang yêu cầu đăng nhập. Dự án mã nguồn mở, xây dựng trên Playwright. Thích hợp cho luồng tác vụ phức tạp & lặp lại.
#CongNghe #TirungTo #OpenSource #LapTrinh #DataScraping #Doppelgänger #TirungTrinhDuyet #PhanTichDuLieu

Một tiêu chuẩn mới, Site Content Protocol (SCP), được đề xuất nhằm giải quyết các vấn đề trong việc thu thập dữ liệu cho AI. SCP cho phép website cung cấp nội dung có cấu trúc, tối ưu hóa riêng cho AI, cải thiện chất lượng dữ liệu, tăng hiệu quả và minh bạch pháp lý, thay vì cạo dữ liệu từ HTML thông thường.

#AI #DataScraping #WebDev #SCPProtocol #Efficiency
#ThuThapDuLieu #PhátTriểnWeb #GiaoThucSCP #HieuQua

https://www.reddit.com/r/programming/comments/1puyk3x/specification_addressing_ineffic

Công cụ mới giúp trích xuất phụ đề thủ công, chất lượng cao từ YouTube, lý tưởng để xây dựng bộ dữ liệu tinh chỉnh Llama/Mistral. Nó tự động phân biệt phụ đề do người viết và phụ đề tự động, đồng thời xử lý việc xoay IP để tránh bị chặn. Rất hữu ích cho các nhà phát triển AI!

#AI #YouTube #DataScraping #LLM #MachineLearning #DữLiệu #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1pt9njz/tool_for_scraping_highquality_youtube_datasets/