Cloudflare erwischt Perplexity und Eva Z. ist auch mit dabei

Cloudflare wirft Perplexity vor, robots.txt und andere Sperrmechanismen¹ bewusst zu umgehen. Der konkrete Vorwurf lautet, Perplexity würde diverse Vorgaben und Verbote in robots.txt-Dateien und WAF-Regeln nicht nur ignorieren, sondern sogar so weit gehen, Bots loszuschicken, die sich nicht als von Perplexity stammend deklarieren, um die so geschützten Inhalte dennoch in seine Indizes aufnehmen zu können. Um dies zu beweisen, hat Cloudflare Perplexity im Rahmen eines Experiments eine Falle gestellt.

Although Perplexity initially crawls from their declared user agent, when they are presented with a network block, they appear to obscure their crawling identity in an attempt to circumvent the website’s preferences. […] We created multiple brand-new domains […] These domains were newly purchased and had not yet been indexed by any search engine nor made publicly accessible in any discoverable way. We implemented a robots.txt file with directives to stop any respectful bots from accessing any part of a website. […] We conducted an experiment by querying Perplexity AI with questions about these domains, and discovered Perplexity was still providing detailed information regarding the exact content hosted on each of these restricted domains. This response was unexpected, as we had taken all necessary precautions to prevent this data from being retrievable by their crawlers. […] We observed that Perplexity uses not only their declared user-agent, but also a generic browser intended to impersonate Google Chrome on macOS when their declared crawler was blocked.
Cloudflare

Cloudflare hat das gleiche Experiment auch mit ChatGPT durchgeführt, doch die KI-Bots von OpenAI haben sich an die Regeln gehalten und sind nicht in die Falle getappt². Cloudflare hat mittlerweile auch Maßnahmen gesetzt, um auch diese von Perplexity nicht deklarierten Bots abzufangen und das Befolgen von robots.txt- und anderen Regeln, die das Crawlen limitieren oder gar verbieten, zu erzwingen.

Aber das Internet wäre nicht das Internet, gäbe es auf diese Vorwürfe und Resultate nicht eine Antwort von Perplexity. Dort reagiert man erstaunlich patzig und wirft Cloudflare Inkompetenz in der Evaluierung und Analyse der Vorgänge vor. Tatsächlich aber erhebt Perplexity die Forderung, einen Unterschied zwischen Bots, die im Auftrag eines Users tätig sind und konkrete Aufgaben lösen, und Bots, die nicht im Auftrag eines Users, sondern für allgemeine Tätigkeiten, wie zum Beispiel den Aufbau eines Index, tätig sind, zu machen.

[In] traditional web crawling, […] crawlers systematically visit millions of pages to build massive databases, whether anyone asked for that specific information or not. User-driven agents, by contrast, only fetch content when a real person requests something specific, and they use that content immediately to answer the user’s question. […] When Perplexity fetches a webpage, it’s because you asked a specific question requiring current information. […] An AI assistant works just like a human assistant. When you ask an AI assistant a question that requires current information, they don’t already know the answer. They look it up for you in order to complete whatever task you’ve asked. […] User-driven agents only act when users make specific requests, and they only fetch the content needed to fulfill those requests. This is the fundamental difference between a user agent and a bot. Cloudflare’s recent blog post managed to get almost everything wrong about how modern AI assistants actually work.
Perplexity

Und da ist sie – die Forderung bzw. der Anspruch: Perplexity argumentiert, dass Bots, die konkrete Aufträge eines Users durchführen (und nicht fürs Training von AI-Datenbanken genutzt werden), nicht als Bots im eigentlichen Sinne wahrgenommen werden sollten, sondern als „human assistants“. Da ihre Aktionen nur auf den Auftrag eines Users eingeschränkt sind, sollte man sie so behandeln, wie wenn sie menschliche Besucher wären, und deshalb auch nicht blockieren.

Da braut sich was zusammen, denn so klar, wie diese Meinung auf den ersten Blick erscheint, ist diese Unterscheidung nicht. Perplexity gibt ein Beispiel in seinem Blogbeitrag und stellt eine Frage, aus der man schön die Gegenposition, die Cloudflare vertritt, ermitteln kann. Hierin liegt die Zwickmühle.

Wenn ein User in Perplexity den Prompt absetzt, den Inhalt der Webpage xyz.com/produktinformation zusammenzufassen, sollte Cloudflare den Bot, den Perplexity nun losschickt, um die Seite abzurufen und der Perplexity-KI zur Verfügung zu stellen, blockieren? Es ist doch nur diese eine Seite und der Bot agiert explizit im Auftrag eines Users. „Es ist, wie wenn der Mensch die Page selbst abrufen würde,“ wäre das der Argumentationslogik von Perplexity folgende Argument. Hier ist die Gegenposition von Cloudflare eventuell noch nicht eindeutig. Eine Page… was soll daran auszusetzen sein?

Klar, der Betreiber der Website verliert den menschlichen Traffic; die Chance auf weitere Seitenbesuche, Ziel jeder Website und jeglichen Screendesigns, geht durch den Besuch vermittels Bot verloren. Ein Bot wird sich nicht beim Newsletter anmelden, dem Seitenbetreiber nicht auf Instagram folgen und er wird auch die Werbeeinblendung sehen, die dem Seitenbetreiber eventuell ein kleines Einkommen verschafft. Aus Sicht des Seitenbetreibers, also, ist der Aufruf der genannten Seite, verloren und Bot-Traffic.

Aber gehen wir einen Schritt weiter und ändern den Prompt ein wenig.

Der User will die Produktinformationen, gibt aber nicht eine konkrete URL bzw. einen Deeplink wie xyz.com/produktinformation an, sondern erwähnt nur den Namen des Unternehmens (XYZ) und den Namen des Produkts (Produkt). Der Rest bleibt gleich. Der User wünscht am Ende eine Zusammenfassung.

Perplexity schickt nun eine Armada von Bots aus, um hunderte Pages, aus denen die Website xyz.com besteht, abzurufen und an die KI weiterzugeben, damit sie einerseits die Produktseite identifizieren, andererseits eine Zusammenfassung generieren kann. Ist das nun Bot-Traffic oder greift hier das Argument, Perplexity agiere ja nur im Auftrag des Users? Perplexity beharrt auf dem Standpunkt, dass diese Aktion im Auftrag des Users erfolgt, somit nicht als regulärer Bot-Traffic gehandhabt werden kann, Cloudflare behauptet das Gegenteil.

Hier wird das Problem klarer und die Grenzen von regulärem Bot-Traffic (in der Diktion von Perplexity) und dem spezifischen, dem Auftrag des Users folgenden, verschwimmt. Ist es Crawling, wenn Perplexity nach der einzelnen Page sucht, welche die relevanten Produktinformationen beinhaltet? Wie geht der Seitenbetreiber mit diesem Bot-Traffic um, der ihm hunderte Möglichkeiten von Conversions stiehlt, gleichzeitig sich aber der zur Verfügung gestellten Inhalte bemächtigt? Wie geht eine Infrastruktur-Plattform wie Cloudflare, die den Traffic ja abfangen muss, mit so vielen Aufrufen um? Niemals könnte ein Mensch diesen Traffic in dieser kurzen Zeit verursachen. Das Perplexity-Argument wird also dünner.

Gehen wir noch einen Schritt weiter und ändern den Prompt noch einmal. Diesmal ziehe ich das Beispiel heran, das Perplexity selbst bringt.

Consider someone using AI to research medical conditions, compare product reviews, or access news from multiple sources. If their assistant gets blocked as a „malicious bot,“ they lose access to valuable information.
Perplexity

Ein User will nun also nicht mehr Informationen zu einem konkreten Produkt, sondern er will ein Themengebiet recherchieren. Ein Themengebiet kann nur selten von einer Website abgebildet werden, also schickt Perplexity die vorhin erwähnte Armada von Bots aus, um auf mehreren Websites Traffic zu verursachen, äh, Informationen zu extrahieren. Wir sprechen hier von hunderten, wenn nicht sogar tausenden Aufrufen diverser Webpages, die in Summe in kürzester Zeit getätigt werden. Etwas, das es für den Perplexity-User attraktiv macht, die KI zu nutzen, gleichzeitig aber etwas, das von dem, was Perplexity „regulären Bot-Traffic“ nennt, eigentlich nicht zu unterscheiden ist.

Und es geht sogar noch einen Schritt weiter, wenn wir das Thema „Agentic AI“ in einer abgemilderten Form auch noch hinzufügen.

Sobald Perplexity mit neuen Themen oder unbekannten Aspekten einer Fragestellung konfrontiert ist, so – das ist meine Vermutung – wird Perplexity die weitere Recherche quasi auslagern, also an Bots übergeben, die auch nach der Beantwortung der Frage für den User weiter „recherchieren“, da die Geduld eines Users natürlich enden wollend ist. Oder, das können einige der KI-Anbieter in den teuren Tarifen, die KI übernimmt die Recherche komplett eigenständig und durchsucht ohne Zutun eines Users hunderte Websites mit tausenden Webpages nach relevanten Informationen.

Ist das noch „im Auftrag des Users“ und damit als „human agent“ zu bewerten oder ist es dann nicht doch, wie Cloudflare sagt, einfach ganz regulärer Bot-Traffic?

Bei mir hier in Österreich kommen in der ganzen Sache Erinnerungen an einen auf den ersten Blick überhaupt nicht damit in Zusammenhang stehenden Fall auf. Den, nämlich, von Eva Z., den Google Fonts und dem unglücklichen Abmahnanwalt. Denn auch dort ist etwas passiert, das in meinen Augen vergleichbar ist, und vor Gericht nicht standgehalten hat. Hier behauptet Eva Z., Unwohlsein zu verspüren, weil sie Websites aufgerufen hat, die Google Fonts direkt von Google laden. Es waren aber tausende Websites, die Eva Z. Unwohlsein bereitet haben, eine Zahl, also, die unmöglich von einer einzelnen Person aufgerufen werden konnte. Hier war ein Bot im Spiel, eine komplette Infrastruktur, sozusagen, die das Browsen für Eva Z. übernommen hat. Genau dieses Faktum hat die ganze Sache ins Wanken gebracht und Eva Z. bzw. ihr Abmahnanwalt ist mit den Forderungen gescheitert; da Eva Z. die Seiten nicht selbst aufgerufen hat, konnte ihr gar kein Unwohlsein entstehen.

Wenden wir die Logik auf den Cloudflare-Perplexity-Zwist an.

Cloudflare argumentiert, dass es nicht Eva Z. war, die tausende Websites aufgerufen hat und Unwohlsein erfahren musste, sondern ein Bot. Damit gelten all die Vorwürfe nicht. Perplexity hingegen argumentiert, dass Sperrmechanismen der Zielseiten nicht gelten würden, weil kein Zweifel daran bestehe, dass man den Aufruf jeder einzelnen Website so bewerten müsse als ob Eva Z. sie selbst aufgerufen habe. Immerhin hätte die hierfür notwendige Infrastruktur quasi in ihrem Namen agiert. Es ist also, dieser Argumentation folgend, so, dass sie tausendfach Unwohlsein verspürt habe.

Eine verzwickte Situation, die, so denke ich, in Zukunft auch noch Implikationen für Nutzerinnen und Nutzer von KIs und KI-Suchmaschinen haben wird, wenn sich Perplexity mit seiner Interpretation des Verhaltens von Perplexity-Bots durchsetzt. Und diese Auswirkungen und Implikationen können auch unschön werden, wenn beispielsweise ein im Auftrag eines Menschen agierender Bot auf Pages mit Inhalten, die in einer Rechtsprechung verboten sind, stößt und sie abruft. Haftet dann Perplexity oder haftet der den Auftrag erteilende Mensch? Ist das agentische Browsen tatsächlich so nah am Menschen, wie Perplexity argumentiert, wenn der Mensch bestimmte Seiten im Wissen um ihre Verbote nie aufrufen würde, die KI allerdings schon?

Es kommen interessante Zeiten auf uns zu.

Das ist eine starke Vereinfachung, ist mir natürlich klar. Und robots.txt ist natürlich auch keine endgültig wirksame Sperrmaßnahme. ↩︎
Es ist vielleicht nicht uninteressant zu erwähnen, dass Cloudflare nur einen Tag nach der Veröffentlichung des Experiments einen Beitrag auf dem Firmenblog veröffentlicht hat, in dem eine Partnerschaft mit OpenAI angekündigt wird. ↩︎

Cloudflare erwischt Perplexity und Eva Z. ist auch mit dabei

Ähnliche Beiträge

Schreibe einen KommentarAntworten abbrechen