64 % aller Kategorietexte enthalten denselben 4-gram-Block. 🧠
n-grams über die Kategorietexte eines Shops gejagt: 225 Kategorien, 123.000 Tokens. Befund: Ein Versand-FAQ-Block steht wortgleich in 124 davon – Median 30 Tokens, die nichts zum topischen Fokus beitragen.
Fix: Alle Kategorietexte raus, 1- bis 4-grams berechnen, Document Frequency prüfen. Was in über 30 % der Kategorien steht, gehört raus.





