Ich habe bei Google einen interessanten Hinweis auf die Möglichkeit der Steigerung der Crawling-Effizienz gefunden, die vor allem für größere Websites interessant sein könnte. Da das Crawling-Budget nach Hostnamen berechnet wird, empfiehlt Google, größere Ressourcen (vor allem Bilder oder Videos) auf Dritt- oder Subdomains zu hosten. Explizit nicht empfiehlt Google, kritische Ressourcen wie JavaScript oder CSS auszulagern.
Wenn die Ressourcen gecrawlt werden, die zum Rendern einer Seite erforderlich sind, wird das Crawling-Budget des Hostnamens, auf dem die Ressource gehostet wird, verringert. Um dies zu berücksichtigen, versucht der WRS, jede Ressource (JavaScript und CSS) im Cache zu speichern, auf die auf den gerenderten Seiten verwiesen wird. […] Aus Sicht der Websiteinhaber kann die Festlegung, wie und welche Ressourcen gecrawlt werden, das Crawling-Budget der Website beeinflussen. Wir empfehlen Folgendes: […] Hostet Ressourcen unter einem anderen Hostnamen als dem der Hauptwebsite, z. B. mit einem CDN oder indem ihr die Ressourcen einfach auf einer anderen Subdomain hostet. Dadurch werden etwaige Probleme mit dem Crawling-Budget auf den Host übertragen, der die Ressourcen bereitstellt. […] Wir empfehlen diese Strategie […] nicht für kritische Ressourcen wie JavaScript oder CSS, die für das Rendern einer Seite erforderlich sind. Bei größeren nicht kritischen Ressourcen wie Videos oder Downloads ist dieser Ansatz jedoch eine Überlegung wert.
Google Search Central
Das Crawling-Budget ist ein für jeden Hostnamen berechneter Wert aus Kapazitätslimit und Bedarf, so macht es klarerweise Sinn, jeden Hostnamen mit so wenig Last (Kapazitätslimit des Servers) und Bedarf (Anfragen durch Userinnen und User) zu belasten, wie nur irgendwie möglich. Gut zu wissen.
Natürlich kann man auch dafür sorgen, dass es weniger Ressourcen an sich zu crawlen gibt. Ist vielleicht auch nicht schlecht.