ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов

Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная борьба за позиции в выдаче. Эта логика десятилетиями определяла, как мы строим сайты, настраиваем SEO и пишем robots.txt. С появлением LLM-агентов эта модель начала трещать по швам.

https://habr.com/ru/articles/1004924/

#robotstxt #llmstxt #llms #llmsfulltxt #yandex #google

ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов

Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная...

Хабр

Что такое LLMs.txt и LLMs-full.txt и зачем нам «sitemap для нейросетей»

Мы привыкли к классическому джентльменскому набору любого сайта: robots.txt экономит ресурсы сервера, запрещая поисковикам сканировать мусорные страницы, а sitemap.xml, наоборот, скармливает поисковикам каждую доступную страницу для полной индексации. Однако ситуация изменилась, когда сайты начали читать не только поисковые роботы, но и языковые модели. Для них существующие стандарты не подходят: Sitemap избыточен и ресурсоёмок, а HTML-код создаёт слишком много шума. Возникла необходимость в способе доставки актуального, очищенного контекста в сжатом виде. Это важно как для AI-агентов и встроенных в поисковики моделей, так и стратегически: логично предположить, что при сборе датасетов крупные игроки будут отдавать приоритет именно таким структурированным источникам, предпочитая их сырому HTML. В сентябре 2024 года Джереми Ховард (создатель fast.ai ) предложил решение в виде стандарта /llms.txt. Давайте разберемся, как он работает, чем отличается от llms-full.txt и как внедрить его у себя.

https://habr.com/ru/articles/974882/

#llmstxt #AISEO #Искусственный_интеллект #LLM #Вебстандарты #поисковая_оптимизация #itстандарты #llmsfulltxt

Что такое LLMs.txt и LLMs-full.txt и зачем нам «sitemap для нейросетей»

Мы привыкли к классическому джентльменскому набору любого сайта: robots.txt экономит ресурсы сервера, запрещая поисковикам сканировать мусорные страницы, а sitemap.xml, наоборот, скармливает...

Хабр