Zitat als mein Inhalt in Googles „People also ask“

Es sind nicht nur die Suchergebnisse, auch die aus den gecrawlten Websites extrahierten Antworten in "People also ask" sind oftmals von fraglicher Qualität - wie ich durch Zufall für einen meiner Artikel entdeckt habe.

Dass sich Google in puncto Qualität der Suchergebnisse momentan im freien Fall befindet, habe ich schon in etlichen Beiträgen hier angemerkt. Gestern bin ich durch Zufall auf einen anderen Aspekt dieses Qualitätsverlustes gestoßen, der sich bei einer einfachen Suche zwar schnell korrigieren lässt, bei Suchen aber, die eher Meta-Analysen oder Zusammenfassungen von Suchergebnissen sind – ich denke da an eine Funktion wie Browse for me, mit der zum Beispiel Arc gerade wirbt, oder an KI-gestützte Recherchearbeit, die letzten Endes für Live-Ergebnisse auch auf klassische Suchmaschinen zurückgreift – ein echtes Problem werden kann.

Wenn schon die Qualität der Suchergebnisse bei Google selbst sinkt, dann sind die „Weiteren Fragen“ (englisch: „People also ask“) natürlich ebenso davon betroffen. Dort wird die Sache auch noch offensichtlicher, weil Google hier ja versucht, eine kurze und präzise Antwort auf eine mehr oder weniger einfache Frage zu geben. In allen Fällen klingt sie plausibel, aber wenn ich mit einem Blick erkenne, dass die dort angezeigte Antwort auf eine Frage gar nicht dem entspricht, was der Artikel, den Google zitiert, eigentlich aussagt, dann läuten bei mir alle Alarmglocken. Und genau das ist mir gestern passiert: Ich habe ein Zitat aus einem meiner Artikel als Antwort auf eine solche Frage gesehen. Der angezeigte Abschnitt sagt aber ohne Kontext des ganzen Beitrags fast genau das Gegenteil dessen aus, was die von Google generierte Antwort suggeriert.

Suche nach „spark mail“ und Antwort auf die Frage „Wie seriös ist Spark?“

Gestern habe ich nach dem Supportformular von Spark gesucht und, weil ich faul bin, einfach „spark mail“ bei Google eingetippt. Dabei ist mir bei einer der „weiteren Fragen“, die Google bei so einer Suche anzeigt, aufgefallen, dass es da die Frage gab, ob Spark seriös sei. Natürlich ist das eine Frage ganz nach meinem Geschmack, also habe ich nicht schlecht gestaunt als ich festgestellt habe, dass die von Google angezeigte Antwort ein Ausschnitt aus meinem Artikel Spark und das unangenehme Thema Datenschutz ist. Was das SEO-Herz höher schlagen lassen sollte, führte schnell zu kühler Ernüchterung, denn was da steht, hat nicht nur mit der Frage wenig zu tun, es ist auch schlicht und einfach falsch.

Ich wusste, dass ich so ein Statement in diesem Artikel nie und nimmer gemacht habe. Schlimmer noch. Der Ausschnitt, den Google anzeigt, sagt so ziemlich genau das Gegenteil von dem aus, was die stark gekürzte und den Kontext des gesamten Beitrags vermissende Antwort auf der Suchergebnisseite vermittelt. Auch interessant, dass Google hier einen Teil meines Blogbeitrags mit einem in diesem Blogbeitrag eingebetteten Zitat der Spark-Website vermengt hat und nun nach außen als eine in sich geschlossene Aussage erscheinen lässt.

Hier ein Screenshot vom Google-Suchergebnis, die „Weiteren Fragen“ in den sichtbaren Bereich gerückt. Unter der Frage „Wie seriös ist Spark?“ wird mein Blog zitiert. Entweder, die Frage (und meine angebliche Antwort) erscheint sofort oder – ich habe es einige Male probiert – erst nachdem man auf „Wie sicher ist Spark Mail?“ geklickt und damit Google sein Interesse an diesem Punkt bekundet hat, was dann wiederum zu mehr Fragen in dieser Richtung und somit zu „Wie seriös ist Spark?“ führt.

Klickt man auf den Referenzlink, wird man ganz korrekt auf den entsprechenden Blogbeitrag geführt. Sofern der Browser es unterstützt, scrollt er zur auf der Suchergebnisseite zitierten Passage und markiert sie auch farblich. Das sieht dann so aus und sollte bereits die ersten Zweifel wecken.

Plötzlich sieht man nämlich ganz deutlich, dass Google die Antwort auf die Frage, wie seriös Spark sei, aus einem auf meinem Blogbeitrag zitierten Abschnitt der Spark-Website und dem Anfang eines Absatzes, der wiederum von mir selbst geschrieben wurde, vermengt hat. Wer sich die Mühe macht und dem der Markierung unmittelbar folgenden Satz liest, erkennt ganz eindeutig und unmissverständlich, dass der markierte, um diesen Satz gekürzte Abschnitt nahezu das Gegenteil von dem meint, was der Artikel an sich aussagt.

Google, Verstärker von Tendenziosität

Ich schüttle immer noch den Kopf im Unglauben, damit konfrontiert worden zu sein, wie tendenziös (nämlich ausschließlich positiv) und den Aspekt einer Abwägung komplett außer Acht lassend die angezeigte Antwort auf die Frage „Wie seriös ist Spark?“ auf der Google Suchergebnisseite ist. Die Maschine arbeitet seit Jahren mit Machine Learning und anderen hochentwickelten Technologien zur Wissensverarbeitung, die eine gewaltige Datenbank vermuten lassen, die mit immer komplexeren Inhalten immer besser zurecht kommt. Google gibt auch gerne in vor allem zum Zwecke der Suchmaschinenoptimierung veröffentlichten Videos und anderen Statements, Hinweise auf die stete Verbesserung der Algorithmen, die zur Auswertung der Rohdaten, also unserer Websites, genutzt werden. Ein so banaler Fehler dürfte da nicht mehr passieren.

Klicken Sie auf den unteren Button, um den Inhalt von Giphy zu laden.

Inhalt laden

Dass die Maschine aber Einseitigkeit, Tendenziosität und andere, die Vielfalt und die verschiedenen Nuancen von Argumentation und Erklärung störende Zugänge nicht erkennt, ist problematisch. Dass sie diese, die Objektivität nahezu verunmöglichenden Zugänge durch die automatisch generierten FAQs verstärkt, ja sogar fördert, umso mehr. Dass es Menschen gibt, die die Websites, die Quelle für die Antworten auf diese Fragen sind, gar nicht mehr besuchen, weil sie sich auf die von Google so vermittelte Seriosität der Antwort verlassen, noch viel mehr. Und dass wohl solche, von einer Maschine generierten Antworten, das Rohmaterial für von künstlicher Intelligenz generierte Inhalte sein werden, erst recht.

Aber die Sache ist noch wilder als es auf den ersten Blick scheint, denn es ist nicht nur der Inhalt, mit dem ich ein Problem habe. Google hat eine Bauchlandung sondergleichen hingelegt, wenn es um die semantische Interpretation meines Beitrags geht. Das Zitat ist nämlich in Bezug auf den Quellcode wie auch optisch eindeutig als Zitat erkennbar. Und dennoch hat Google es zu einem Teil meines Inhalts gemacht.

Alles eines, egal ob generischer oder zitierter Inhalt

In vielen hier in letzter Zeit zum Thema sinkende Qualität der Google-Suchergebnisse geäußerten Befürchtungen sehe ich mich nun bestätigt, dass Google ein ernsthaftes, sein Kernprodukt betreffendes Problem hat. Die Sache dürfte schlimmer noch als angenommen sein, denn es sind nicht nur die Suchergebnisse selbst, deren Qualität sich im freien Fall befindet, sondern ganz offensichtlich auch die Subsysteme, die Websites crawlen und die darauf angezeigten Inhalte auswerten. Der auf die Frage gezeigte Ausschnitt meines Blogposts ist ein gutes Beispiel dafür, dass der Milliardenkonzern an ganz banalen Fehlern scheitert, die ich im Jahr 2024 nicht mehr für möglich gehalten hätte.

Wie es also zu einem Ergebnis kommen kann, wo doch die falsche Aussage eindeutig als Zitat markiert ist, das, nur so nebenbei, einer anderen Website und nicht mir zugeordnet werden sollte, ist mir ein Rätsel. Noch mehr aber ist mir ein Rätsel, wie die zwei dem Zitat folgenden Sätze von Google aus jeglichem Kontext herausgerissen präsentiert werden können, wo doch der ganze Absatz davor und der den zitierten Sätzen unmittelbar folgende den gesamten zitierten Bereich in Frage stellt. Es scheint fast so, als ob Semantik und Form, von bedachten Autorinnen und Autoren im Onlinebereich, von Developern und SEOs hochgehaltene Werte, von Googles Crawlern und Indexern ignoriert, nicht berücksichtigt, und somit nicht verstanden werden. Wenn dem aber so ist… ich will gar nicht darüber nachdenken, was das für Konsequenzen hat.

Sicher, Google wird nicht müde zu betonen, dass es das einer Website zugrunde liegende HTML de facto nicht mehr wirklich bewertet, sondern das für Userinnen und User sichtbare Ergebnis des Renderings der dort enthaltenen HTML-Codes. Aber Google, hey, ernsthaft? Ein Zitat von einer anderen Website mit meinem Inhalt vermengen und das dann als meine Antwort auf eine Frage darstellen? Not cool. Und falsch auf so vielen Ebenen. Und so einfach mit einem Blick in den Quellcode zu lösen. Was sollen wir Autoren von Blogbeiträgen und anderen Onlinedokumenten denn noch tun, damit solche Fehler nicht mehr passieren?

Die Überschrift des Kapitels, aus dem Google zitiert hat, lautet „Schwache Datenschutzerklärung“. Die Einleitung zu diesem Abschnitt stellt kritische Fragen zum Thema Datenschutz und lässt allein dadurch bereits eine Antwort erahnen, die ganz definitiv nicht so positiv ist, wie es der von Google zitierte Absatz, der selbst wiederum ein Zitat eines Zitats ist (!), erscheinen lässt. Der Absatz unmittelbar nach dem Zitat bestätigt dann mehrfach, wie problematisch das Thema Datenschutz bei Spark Mail sein kann und wieso die Erklärungen auf der Spark-Website – deswegen das Zitat – verschiedene Fragen nicht befriedigend beantworten. Und was holt sich Google? Das eine Zitat, das ich beispielhaft und als auf der Spark-Website gefundenen Kontrastpunkt zu meinen Statements abgebildet habe. Das eine Zitat, das, würde man auch nur die wenigen Worte davor und danach mitlesen, eine völlig andere Bedeutung im Kontext des Artikels bekommt.

Die Frage lautet also nicht, wie seriös ist Spark, sondern wie seriös sind eigentlich die automatisch aus den Inhalten von Websites Dritter generierten und dabei offenbar sehr fragwürdigen Qualitätskriterien folgenden Antworten, die Google liefert.

Meine Güte!

Aktualisierung am 6. Februar 2024

Benedikt hat, diesen Artikel referenzierend, ein weiteres Beispiel gefunden, das mich sogar noch bedenklicher stimmt: Der Inhalt des oben schon mehrfach erwähnten Artikels ist das Featured Snippet für die Google-Suche nach „spark datenschutz“. Die angezeigte Textstelle ist abermals eine Mischung aus Zitat (von der Spark-Website) und meinem Text. Abermals wird hier seitens Google wild – und damit falsch – zitiert. Das Ergebnis:

Michael zerpflückt in seinem Post die Datenschutzangaben von Spark, Google dreht in seinem Zitat den Sachverhalt dann aber so um, als wäre alles paletti. Google muss entweder korrekt zitieren (also auch kontextbezogen!) oder stattdessen halt ein Ergebnis anzeigen, das tatsächlich zu dem Schluss kommt, Spark ist EU-DSGVO-konform. Die aktuelle Vermischung geht aber gar nicht.

benedikt.io

Ich persönlich habe mich noch nie auf die in „Weitere Fragen“ angezeigten Textpassagen verlassen, aber vielleicht – und auch dieses Statement findet sich bei Benedikt – haben solche Fälle wie meiner ja doch etwas Gutes. Nämlich, dass es vielleicht doch besser ist, die Websites derjenigen, die die originalen Inhalte bereitstellen, zu besuchen und sich nicht zu sehr auf eine mystifizierte künstliche Intelligenz (sei es ChatGPT, sei es Google) zu verlassen, die, wie ich hier nun mehr als deutlich gezeigt habe, Inhalte halluziniert, erfindet und aus verschiedenen Textpassagen, die ohne Kontext interpretiert werden, zusammenstückelt und damit etwas kommuniziert, was bisweilen das genaue Gegenteil dessen aussagt, was der Autor oder die Autorin eigentlich geschrieben hat.

Ein Kommentar

  1. Vielen dank für die Verlinkung! Das ist natürlich echt ein starkes Stück bzw. eine schwache Leistung von Google. Wie auch bei mir erwähnt: Bei näherer Betrachtung sieht es so aus, als wäre Google sehr „pro business“ eingestellt und bedacht darauf positive Antworten zu bevorzugen.

    Ich kann mich auch nicht erinnern, bei so etwas wie „Weiteren Fragen/PAA“ mal negative bis vernichtende Antworten gelesen zu haben. Das kann durchaus rechtliche Gründe haben, denn geklagt wird da wohl schnell einmal.

    Habe es jetzt einmal mit einem bekannten Billigst-Versandhändler getestet („Ist [Shopname] gut“) und Kritisches findet man da nicht. Mag aber auch zum Teil am weichgespülten Affiliate-Content liegen, mit dem Google gefüttert wird – aber anderes Thema. ;)

    Bin gespannt, ob Google das mal korrigiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert