Google erweitert Liste nicht unterstützter Robots.txt-Regeln

Google analysiert reale Robots.txt-Daten für bessere Dokumentation

Google arbeitet an einer umfassenden Erweiterung seiner Dokumentation zu nicht unterstützten Robots.txt-Regeln. Diese Initiative basiert auf der Analyse realer Daten aus dem HTTP Archive, wie Gary Illyes und Martin Splitt in einem aktuellen Podcast erklärten. Das Projekt entstand ursprünglich durch einen Community-Beitrag, der die Hinzufügung von zwei neuen Tags zur Liste nicht unterstützter Regeln vorschlug. Anstatt nur diese beiden Tags zu berücksichtigen, entschied sich das Google-Team für einen datenbasierten Ansatz. Mit modernen AI tools integration können solche Analysen heute effizienter durchgeführt werden, um fundierte Entscheidungen über die am häufigsten verwendeten, aber nicht unterstützten Direktiven zu treffen und Webmastern mehr Klarheit zu verschaffen.

Bundle Banner Small — AI Tools Integration

Limited Time

🔥 Lifetime Deal Bundle

3 SaaS Tools for the Price of 2

"It's not SaaS of the Day — It's Must Have SaaS"

🔗 Auto Backlinks Builder

📰 AI Content Aggregator

🖼️ AI Post Image Generator

1 Site

^$98

Lifetime

3 Sites

^$198

Lifetime

10 Sites

^$498

Lifetime

50 Sites

^$1398

Lifetime

Get the Bundle — Save 33% →

One-time payment · No subscription · All 3 tools included · Limited time offer

Methodische Datensammlung durch HTTP Archive zeigt Nutzungsmuster

Die Forschungsmethode nutzte HTTP Archive für die systematische Untersuchung von Robots.txt-Dateien über Millionen von URLs hinweg. Zunächst stieß das Team auf Hindernisse, da Standard-Crawls keine Robots.txt-Inhalte erfassen. Nach Konsultationen mit der HTTP Archive-Community entwickelten sie einen maßgeschneiderten JavaScript-Parser. Dieser extrahiert Robots.txt-Regeln zeilenweise und wurde vor dem Februar-Crawl implementiert. Die Ergebnisse zeigen eine drastische Verteilung: Nach den Hauptfeldern ‘allow’, ‘disallow’ und ‘user-agent’ sinkt die Nutzung erheblich. Solche Analysewerkzeuge funktionieren ähnlich wie ein AI Content Aggregator, der große Datenmengen strukturiert und verwertbare Erkenntnisse liefert. Die gewonnenen Daten sind öffentlich in BigQuery verfügbar und ermöglichen weitere Forschung.

Praktische Auswirkungen und Zukunftsaussichten für Webmaster

Google unterstützt derzeit nur vier Robots.txt-Felder: user-agent, allow, disallow und sitemap. Die geplante Aktualisierung wird die 10-15 meistverwendeten nicht unterstützten Regeln in der offiziellen Dokumentation auflisten. Zusätzlich plant Illyes eine Erweiterung der tolerierten Tippfehler bei ‘disallow’-Regeln. Diese Verbesserungen werden sich auf Googles öffentliche Dokumentation und die Behandlung von Fehlern auswirken. Webmaster sollten ihre Robots.txt-Dateien überprüfen und Direktiven identifizieren, die für Google nie funktioniert haben. Tools zur automatischen Generierung von Inhalten, ähnlich einem AI Post Images Generator für visuelle Inhalte, könnten künftig bei der Optimierung von Robots.txt-Dateien helfen. Die Search Console zeigt bereits einige nicht erkannte Tags an, was durch die erweiterte Dokumentation verbessert wird.