Der (vielleicht) aufkommende llms.txt-Standard entbehrt ja gerade nicht wenig Ironie, stellt doch die llms.txt-Datei am Ende nichts anderes als Nachhilfe für künstliche Intelligenzen dar.
Large language models increasingly rely on website information, but face a critical limitation: context windows are too small to handle most websites in their entirety. Converting complex HTML pages with navigation, ads, and JavaScript into LLM-friendly plain text is both difficult and imprecise.
While websites serve both human readers and LLMs, the latter benefit from more concise, expert-level information gathered in a single, accessible location. This is particularly important for use cases like development environments, where LLMs need quick access to programming documentation and APIs.
llmstxt.org
Etliche Jahrhunderte an menschlicher Leistung unter enormem Einsatz von finanziellen und natürlichen Ressourcen an Trainingsdaten verbraucht, aber zu blöd, um Inhalt von Werbung trennen zu können.
Wisst ihr, was mir gefallen würde? Wenn solche Dateien für Leserinnen und Leser bereitgestellt würden. Dateien, in denen aufs Wesentliche zusammengefasste Informationen auf gutem Niveau auf einer einzigen, leicht erreichbaren Page ohne überbordende Navigation, Werbung und sonstigem Crap, der das Lesen zur Qual macht, präsentiert würden. Stattdessen drehen wir den Spieß um, belassen den vermüllten Inhalt der Verarbeitung durch Menschen, und stellen den KI-Bots eine saubere, von Müll befreite Version unserer Inhalte zur Verfügung.
Es geht immer so oder so. Wenn aber eine der beiden Optionen Menschen dient, die andere zusätzliche Aufwände und Erschwernis mit sich bringt, aber einer KI dienst, dann ist es fast schon ein Naturgesetz, dass man sich für die zweite Variante entscheidet.
Nichts hindert mich daran, llms.txt zu lesen.
Ich vermute, dass es bald ein Adblocker-Plugin geben wird, das diese Umleitung automatisiert 😀
Issue resolved.
Das war ein bisschen auch mein Gedanke. Immerhin ein positiver Nutzen des Duckens vor der KI! High Five!
Moin, nochmal versucht :) zum einen, ich bin weitgehend bei dir, und ahne, Google wirds egal sein, weil die im Unterschied zu vielen anderen KI-Scrapern Webseiten rendern und verstehen können. Weshalb Gemini auf absehbare Zeit hin wahrscheinlich das bessere Grounding liefern wird. Einigermaßen interessant scheint mir das Konzept im Kontext der Agentenlösungen, die MS grade in der Azurecloud anbietet. Denen ein „So funktioniert meine Website, dort ist die API für X, da der Service für Y und die maschinenlesbaren Varianten von p gibts bei q“ *könnte* spannend sein, wenngleich alles irgendwie trotzdem ein Armutszeugnis. Über allem schwebt noch das A2A-protokoll (Agent-to-Agent), mit dem standardisiert wird, wie Agenten aneinander Informationen übergeben). Ich *kann* mir vorstellen, falls da analog zu llms.txt ähnliche Markup-Formate eingesetzt werden, dass man da Stille Post-Effekte vermeiden kann.
Platt gesagt: jenseits von „ChatGPT kann vielleicht besser deine Inhalte klauen“ gibts ein paar spannende Ecken, die aber mMn. dann doch eher speziellere Usecases haben.
Was mir an deinem Kommentar am besten gefällt: Die Klassifizierung der ganzen Chose als „Armutszeugnis“. Denn genau ein solches zu haben – dort sehe ich die Technologie gerade. Das ist keineswegs der Technologie geschuldet, sondern dem Erwartungsmanagement derer, die sie verkaufen. Overpromised, underdelivered, ist auch ein passender Slogan.
Auf der einen Seite sollen Entscheidungen über Anstellungen, medizinische Fälle, Steuern und andere, bedeutende und die Leben von Menschen beeinflussende Dinge an die Technologie übergeben werden, auf der anderen muss man – und danke für diese Art der Darstellung! – der KI erklären, „so funktioniert meine Website, dort findest du A, dort ist B, das ist C usw.“ Dass es KI gerade bei Maschinendaten – und man argumentieren, so viel man will, HTML (XML usw.) ist und bleibt leicht von Maschinen lesbar – so dermaßen auflegt, hätte ich nicht für möglich gehalten. Armutszeugnis ist da ein passendes Wort. Oder man verschleiert es mit schönstem PR-Sprech und sagt nicht ganz offen „Armutszeugnis“, sondern „context windows are too small to handle most websites in their entirety“.
Vielleicht sollte ich mir das auch angewöhnen und so eine implizite Schuldumkehr einführen. Ich sage nicht mehr, „Sorry, ich habe das nicht verstanden!“. Stattdessen sage ich nur noch „Entschuldige bitte, ich benötige da schon mehr Kontext, um verstehen zu können, was du da eigentlich sagst“. Subtil, wie sich die Notwendigkeit zu mehr Recherche bzw. zu besseren Aussagen vom Anbieter zum Konsumenten (oder eben umgekehrt) verschiebt.
Hach, KI ist doch eine tolle, augenöffnende Technologie. Halt nicht dort, wo man sie vermuten würde, sondern in allem, was mit Werbung, Marketing, PR und dem Umgang mit enttäuschten Erwartungen zu tun hat.
Im Großen und ganzen ja :) Ich neige dazu, dass es die sinnvollen Usecases durchaus gibt, sogar für generative LLMs, die spannende Frage wird sein, auf welche davon kann man sinnvoll LLMs werfen, wenn die Kapitalverbrennungsphase rum ist und irgendwann mal die FiBu kommt und sagt, nun, Beitrag zum Unternehmensergebnis, wo? Ich bin seit zwei Jahren immer wieder unterwältigt, wie wenig Leute aus meiner Branche hier auch nur ansatzweise über den Tellerrand gucken und auf Hypecycles reinfallen, andererseits bin ich frustiert, dass einiges sinnvolle grade einfach im Rauschen untergeht.
Nebenan bloggte ich (aktueller Eintrag) über die koks.digital letztens, und natürlich extrem viele KI-Themen, und als diesbezüglich eher skeptischer Mensch war ich überrascht, wie oft da ein „oh, tatsächlich ein spannender Ansatz“ aufscheint. Siehe oben: die Frage ist nur, wieviele dieser Ansätze man sich dann noch leisten kann, wenn der Kram mal tatsächlich kostet, was er kostet.
Was mir jetzt erst beim Schreiben einfällt: natürlich ist es gut möglich, dass man sich irgendwann eine llms.txt anlegen *muss*, wenn man beispielsweise ein werbefinanzierter Publisher ist. Es ist bereits jetzt ein Problem, dass neben generierten Falschaussagen in LLM-Antworten eine Webseite als Quelle steht, die eben *richtig* informiert, nur klickt natürlich niemand und prüft nach. Jetzt stell dir vor, ChatGPT haut ne Antwort raus, sagt „Quelle ist heise online“ und hat aber Inhalte aus der letzten Hyundai-Banneranzeige auf heise dazu verwurstet. Wenn du da die Optionen hast, ein unsicheres Gerichtsverfahren über ein paar Jahre anzustrengen gegen eine Drecksfirma, die eh wahlweise demnächst pleite oder gekauft ist, oder alternativ eine werbefreie content-only-Botvariante deiner Webseite anzubieten, um wenigstens die gröbsten Schnitzer zu vermeiden, dann fällt die Wahl nicht schwer.
Und dann, wie du sagst: man baut ein Browserplugin, das die llms-txt-Versionen der Inhalte schön rendert. Flott, klar, keine Werbung. Was will man mehr?
Ich denke, bei den tatsächlich sinnvollen Usecases sind wir uns einig. Und ja, ich stoße auch immer wieder einmal auf Vorträge, Seminare, Workshops und dergleichen, in denen ich auch bemerke, dass ich den Zugang, die Idee, jedenfalls aber die Nutzung von KI an dieser oder jener Stelle für diesen oder jenen Zweck als sinnvoll und nützlich erachte. Ich fürchte nur, dass diese (im Verhältnis wenigen) Anwendungsfälle in Versprechungen der großen KI-Anbieter untergehen und das Gros der Menschen KI als dieses in den Marketingversprechungen angepriesene Wunderding sehen, ohne sich jemals wirklich mit der Technologie auseinandergesetzt zu haben. Und sei es auch nur im Geringsten.
Und da stehen wir dann nun: Auf der einen Seite die Vorstellung von KI, wie sie beworben wird, auf der anderen Seite KI als Technologie, wie sie tatsächlich ist; mit all ihren „Fähigkeiten“ und Möglichkeiten. Diese Diskrepanz wird früher oder später, wenn nicht jetzt schon, ein Problem werden. (Wenn ich mir deinen zweiten Absatz durchlese, dann ist sie ja jetzt bereits ein Problem. Benedikt hat vor kurzem von so einer Unwahrheit berichtet, die aus wahren Inhalten auf seinem Blog generiert wurde.)
Und zu – Ehre, wem Ehre gebührt – Roberts Idee von Redirect auf die llms.txt: Mega-Idee und Augenöffner in einem. Wenn ich der KI klarmachen muss, was meine Haupt-Inhalte sind und was es tatsächlich zu betrachten gilt, dann frage ich halt schon auch nach, warum nicht gleich? Warum nicht gleich Websites und andere Onlineangebote so konzipieren und gestalten, dass soetwas wie eine llms.txt gar nicht erst nötig ist? Denn, was ist eine llms.txt denn abseits von einer für KIs generierten Textdatei, die das Verständnis über die Inhalte der Seite erleichtern soll? In meinen Augen ein Schuldeingeständnis über die gescheiterte Informations- und Contentstruktur, ein Offenlegen der vielen unnötigen und somit aus Marketingsicht sowieso fehlerhaften Blogbeiträge, Gewinnspiele und so weiter.
Und da dreht sich die Spirale wieder weiter und zeigt den einen Punkt auf, auf den ich bereits warte; den einen Punkt, für den ich der KI-Technologie absolut dankbar bin: Websites werden früher oder später eine Art No-Bullshit-Policy einführen müssen, einen Cut-the-crap-Modus, sozusagen, um sich aufs Wesentliche zu konzentrieren und einerseits so das Web nicht mit unnötigem SEO-Balast vollzumüllen, andererseits, um das von dir gebrachte Beispiel (Quelle richtig, LLM-Extraktion falsch) so gut es geht zu verhindern. Denn Userinnen und User werden, auch das ist uns allen völlig klar, die Quellen nie aufsuchen, sondern sich auf das verlassen, was die LLMs generieren.
Für das, was wir das Web nennen, stehen spannende Zeiten bevor. Ich hoffe sehr, es wird nicht auf ein Chat-Interface und somit zu einem reinen Informationsabruf-Web degradiert, denn das wäre nicht nur für die Kreativität und die teils absurde Art der menschlichen Kommunikation äußerst schade, sondern würde uns alle eines Raumes berauben, der trotz all seiner enormen Schwächen und Fehler dennoch eine der letzten Möglichkeiten darstellt, in denen so etwas ähnliches wie Freiheit und Chancengleichheit erlebbar ist.
Also ausatmen und ruhig bleiben. Die Erfahrung zeigt, dass alles nicht so schlimm kommt, wie es anfänglich wirkt.