Google ändert Regeln für die Robots.txt und veröffentlicht eigenen Parser
Das Robots-Exklusion-Protokoll (REP) ist seit über 25 Jahren der de-facto-Standard für Webseitenbetreiber, mit dem man innerhalb der Robots.txt Webcrawlern von Suchmaschinen darauf hinweisen kann, welche Teile der Website für die Suchmaschine relevant ist. Jetzt hat der amerikanische Google-Konzern angekündigt, dass die gleichnamige Suchmaschine künftig einige der Anweisungen innerhalb des Protokolls nicht mehr unterstützen wird. So werden künftig die Befehle Noindex, Nofollow und Crawl-Delay vom Google-Crawl-Bot ignoriert, da diese Google zufolge von Website-Betreibern anscheinend sehr selten genutzt werden.
Parallel dazu will das Unternehmen das REP zu einem wirklichen Open-Source-Standard für das Internet machen, da es diesen Status bisher nicht hatte. Dies liegt daran, dass das REP vielen Entwicklern nicht eindeutig genug war, da sich in den letzten Jahren auch noch verschiedene Abwandlungen entwickelt haben. Um die Implementierung des neuen Standards für Entwickler zu vereinfachen, hat Google auch gleich seinen eigenen Parser auf GitHub als C++-Library veröffentlicht.
Mit diesem Schritt könnte es Google vielen Entwicklern leichter gemacht haben, ihre Robots.txt-Dateien zu erstellen, ohne dass ungewollte Randerscheinungen auftreten.