The Dark Side of AI No One Talks About, by @jammer_volts (@mozseo.bsky.social):

https://moz.com/blog/dark-side-of-ai

#ai #seo #robotstxt

The Dark Side of AI No One Talks About

Is AI helping your SEO or sabotaging it? Discover the hidden risks of LLMs and the practical strategies to protect your brand visibility.

Moz

AI 에이전트가 내 사이트를 방문할 때, robots.txt부터 WebMCP까지 5가지 대응법

AI 에이전트가 웹사이트를 탐색하는 시대, robots.txt부터 llms.txt·OpenAPI·WebMCP까지 에이전트 친화적 웹을 만드는 5가지 핵심 방법을 소개합니다.

https://aisparkup.com/posts/9980

#Development #Findings
Markdown, llms.txt, and AI crawlers · Do Markdown and llms.txt matter for your website? https://ilo.im/16b5qb

_____
#Business #SEO #SearchEngines #AI #Crawlers #Content #Website #Markdown #LlmsTxt #RobotsTxt

Markdown, llms.txt and AI crawlers

Dries is the Founder and Project Lead of Drupal and the Co-founder and Executive Chair of Acquia.

ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов

Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная борьба за позиции в выдаче. Эта логика десятилетиями определяла, как мы строим сайты, настраиваем SEO и пишем robots.txt. С появлением LLM-агентов эта модель начала трещать по швам.

https://habr.com/ru/articles/1004924/

#robotstxt #llmstxt #llms #llmsfulltxt #yandex #google

ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов

Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная...

Хабр

#Business #Reports
Anthropic details how Claude crawls sites · How to block the three separate user agents https://ilo.im/16ax7y

_____
#AI #Claude #Crawlers #UserAgents #RobotsTxt #Content #Website #WebDev #Frontend #Backend

Anthropic clarifies how Claude bots crawl sites and how to block them

Anthropic explains how its bots handle AI training, live queries, and search results, and what opting out means for visibility.

Search Engine Land
Facebook's Fascination with My Robots.txt

Facebook is requesting my robots.txt thousands of times per hour.

Random Notes

Wow 28 new AI crawlers added to ai.robots.txt since I last updated in August.

https://github.com/ai-robots-txt/ai.robots.txt

#AI #webdev #robotstxt

GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.

A list of AI agents and robots to block. Contribute to ai-robots-txt/ai.robots.txt development by creating an account on GitHub.

GitHub
Webspace Invaders · Matthias Ott

There’s something happening on the Web at the moment that almost feels like watching that old arcade game Space Invaders play out across our servers. Bots and scrapers marching in formation, attacking our servers wave after wave, systematically requesting page after page, relentlessly filling their data stores while we watch our access logs fill up.

Matthias Ott – Web Design Engineer

📝 New article: Why We Reject Google: Our Anti-Surveillance SEO Policy

An in-depth look at why Virebent.art deliberately blocks Google and other surveillance-based crawlers, and our strategy for visibility in a privacy-first web.

🔗 https://www.virebent.art/blog/seo-policy.html

#antiseo #robotstxt #surveillancecapitalism

Why We Reject Google: Our Anti-Surveillance SEO Policy | Virebent.art

Our SEO strategy is an anti-surveillance strategy. Learn why we block mainstream crawlers and how we build visibility on an ethical, privacy-first web.

[Перевод] Тихая смерть robots.txt

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части. В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде. Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt . Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу. Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников. Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Cегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

https://habr.com/ru/companies/ruvds/articles/987416/

#robotstxt #вебкраулер #crawling #openai #ruvds_перевод

Тихая смерть robots.txt

Десятки лет robots.txt управлял поведени��м веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает...

Хабр