Guests on our own web

A few months ago I spun up a new VPS on Linode, London datacentre. Nothing special – Debian, Nginx, a Let's Encrypt certificate, a domain I was going to use for my daily notes and my homelab experiments. No link posted anywhere, no entries in my feeds, no backlinks from the sites I run. Just a freshly assigned IP, from a subnet that a week earlier had belonged to someone else.

[...]

https://write.as/jolek78/guests-on-our-own-web

Guests on our own web

A few months ago I spun up a new VPS on Linode, London datacentre. Nothing special - Debian, Nginx, a Let's Encrypt certificate, a domain...

jolek78's blog

Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

Последние полгода я работаю над VibeMuvik — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать. Эта статья — про неожиданные находки . Не про «как я выбрал стек» (скучно) и не про «туториал по WebRTC» (и без меня есть). Это пять ситуаций, в которых я споткнулся, обнаружил что-то интересное, и подумал «об этом стоит рассказать — другим пригодится». Поехали.

https://habr.com/ru/articles/1027876/

#robotstxt #SEO #WebRTC #Nextjs #IndexNow #sitemap #Googlebot #Cinema_DNA #синхронный_просмотр #рекомендательные_системы

Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

Последние полгода я работаю над  VibeMuvik  — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать....

Хабр

How does your robots.txt look like?

#question #fedipower #website #robotstxt

ChatGPT는 직접 읽고, Gemini는 안 읽는다, nginx 로그로 본 AI 트래픽의 실체

AI 어시스턴트 8개를 nginx 탐침으로 실측한 결과. ChatGPT·Claude는 직접 읽고, Gemini는 읽지 않습니다. AI 트래픽의 두 신호를 구분하는 방법을 소개합니다.

https://aisparkup.com/posts/11579

The Pope’s Warnings About AI Were AI-Generated, a Detection Tool Claims

https://fed.brid.gy/r/https://www.wired.com/story/pope-tweets-ai-generated-pangram-chrome-extension/

#Development #Launches
Is Your Site Agent-Ready? · Scan your website for agent-friendly standards https://ilo.im/16c93a

_____
#Website #AI #Agents #MCP #Commerce #Content #RobotsTxt #Sitemap #WebDev #Frontend

Is Your Site Agent-Ready?

Scan your website to see if it's ready for AI agents. Check for llms.txt, MCP, agent skills, and other agent-friendly standards.

Is Your Site Agent-Ready?
FYI: Only 7.4% of Fortune 500 have an llms.txt file, study finds: ProGEO.ai research reveals just 7.4% of Fortune 500 companies have implemented llms.txt, while 92.8% use robots.txt and 53.8% use JSON-LD for AI visibility. https://ppc.land/only-7-4-of-fortune-500-have-an-llms-txt-file-study-finds/ #LLMSTXT #Fortune500 #AIVisibility #RobotsTxt #JSONLD
Only 7.4% of Fortune 500 have an llms.txt file, study finds

ProGEO.ai research reveals just 7.4% of Fortune 500 companies have implemented llms.txt, while 92.8% use robots.txt and 53.8% use JSON-LD for AI visibility.

PPC Land

Ich verstehe #Google nicht... Schieben die mir die Schuld zu, dass eine Seite durch robots.txt blockiert ist und die es trotzdem indexiert haben?

Wenn man in den Docs einmal nachschaut, muss man für die Warnung auch etwas scrollen.

Deren Vorschlag: pack doch noindex als meta-tag in die Seite.

Spoiler: genau dieser tag befindet sich dort bereits...

Anstatt sich einfach an Konventionen zu halten und die Seite einfach direkt zu vergessen...

Es wird einen Grund haben, warum ich einzelne Seiten nicht direkt im Internet haben möchte, sondern nur durch Verlinkungen...

#GoogleSearchConsole #robotstxt #FuckBigTech

Only 7.4% of Fortune 500 have an llms.txt file, study finds: ProGEO.ai research reveals just 7.4% of Fortune 500 companies have implemented llms.txt, while 92.8% use robots.txt and 53.8% use JSON-LD for AI visibility. https://ppc.land/only-7-4-of-fortune-500-have-an-llms-txt-file-study-finds/ #Fortune500 #AI #llms #robotsTxt #JSONLD
Only 7.4% of Fortune 500 have an llms.txt file, study finds

ProGEO.ai research reveals just 7.4% of Fortune 500 companies have implemented llms.txt, while 92.8% use robots.txt and 53.8% use JSON-LD for AI visibility.

PPC Land

The meta docs page linked says they honour robots.txt which would appear to be rubbish as the one generated by Wordpress contains a couple of lines which should include the requests they’re making I think:

Disallow: /*?add-to-cart=
Disallow: /*?*add-to-cart=

I might just grab the (long) list of source IPs that they show how to grab from Whois and block the lot with Caddy.

#wordpress #bots #robotstxt