Google erweitert Liste nicht unterstützter Robots.txt-Regeln
Google analysiert reale Robots.txt-Daten für bessere Dokumentation
Google arbeitet an einer umfassenden Erweiterung seiner Dokumentation zu nicht unterstützten Robots.txt-Regeln. Diese Initiative basiert auf der Analyse realer Daten aus dem HTTP Archive, wie Gary Illyes und Martin Splitt in einem aktuellen Podcast erklärten. Das Projekt entstand ursprünglich durch einen Community-Beitrag, der die Hinzufügung von zwei neuen Tags zur Liste nicht unterstützter Regeln vorschlug. Anstatt nur diese beiden Tags zu berücksichtigen, entschied sich das Google-Team für einen datenbasierten Ansatz. Mit modernen AI tools integration können solche Analysen heute effizienter durchgeführt werden, um fundierte Entscheidungen über die am häufigsten verwendeten, aber nicht unterstützten Direktiven zu treffen und Webmastern mehr Klarheit zu verschaffen.
Methodische Datensammlung durch HTTP Archive zeigt Nutzungsmuster
Die Forschungsmethode nutzte HTTP Archive für die systematische Untersuchung von Robots.txt-Dateien über Millionen von URLs hinweg. Zunächst stieß das Team auf Hindernisse, da Standard-Crawls keine Robots.txt-Inhalte erfassen. Nach Konsultationen mit der HTTP Archive-Community entwickelten sie einen maßgeschneiderten JavaScript-Parser. Dieser extrahiert Robots.txt-Regeln zeilenweise und wurde vor dem Februar-Crawl implementiert. Die Ergebnisse zeigen eine drastische Verteilung: Nach den Hauptfeldern ‘allow’, ‘disallow’ und ‘user-agent’ sinkt die Nutzung erheblich. Solche Analysewerkzeuge funktionieren ähnlich wie ein AI Content Aggregator, der große Datenmengen strukturiert und verwertbare Erkenntnisse liefert. Die gewonnenen Daten sind öffentlich in BigQuery verfügbar und ermöglichen weitere Forschung.
Praktische Auswirkungen und Zukunftsaussichten für Webmaster
Google unterstützt derzeit nur vier Robots.txt-Felder: user-agent, allow, disallow und sitemap. Die geplante Aktualisierung wird die 10-15 meistverwendeten nicht unterstützten Regeln in der offiziellen Dokumentation auflisten. Zusätzlich plant Illyes eine Erweiterung der tolerierten Tippfehler bei ‘disallow’-Regeln. Diese Verbesserungen werden sich auf Googles öffentliche Dokumentation und die Behandlung von Fehlern auswirken. Webmaster sollten ihre Robots.txt-Dateien überprüfen und Direktiven identifizieren, die für Google nie funktioniert haben. Tools zur automatischen Generierung von Inhalten, ähnlich einem AI Post Images Generator für visuelle Inhalte, könnten künftig bei der Optimierung von Robots.txt-Dateien helfen. Die Search Console zeigt bereits einige nicht erkannte Tags an, was durch die erweiterte Dokumentation verbessert wird.


