ChatGPT: keine Zusammenfassung

Wer ChatGPT Texte zusammenfassen lässt, sollte sich der Tatsache bewusst sein, dass es sich beim Ergebnis nicht um eine Zusammenfassung, sondern um eine starke Kürzung handelt. Das kann schnell zu Problemen führen.

Gerben Wierda hat eine interessante Beobachtung gemacht: Lässt man ChatGPT einen Text zusammenfassen, dann ist das Ergebnis keine Zusammenfassung, sondern eine Kürzung, die aber wie eine Zusammenfassung wirkt. Das dem so ist, lässt sich recht einfach aus der Mechanik eines Large Language Model ableiten:

When you ask ChatGPT to summarise this text, it instead shortens the text. And there is a fundamental difference between the two. To summarise, you need to understand what the paper is saying. To shorten text, not so much. To truly summarise, you need to be able to detect that from 40 sentences, 35 are leading up to the 36th, 4 follow it with some additional remarks, but it is that 36th that is essential for the summary and that without that 36th, the content is lost. […] The situation is even worse. If I have 35 sentences of circumstance leading up to a single sentence of conclusion, the LLM mechanism will — simply because of how the attention mechanism works with the volume of those 35 — find the ’35’ less relevant sentences more important than the single key one. So, in a case like that it will actively suppress the key sentence. […] After this experience with summarising — something that was on my list as a potential realistic use case — I am less optimistic that there will be reliable enough use cases for LLMs for real business uses.

Gerben Wierda

Wenn die „Leistung“ von ChatGPT in so einem Fall tatsächlich auf recht grundlegenden Funktionen basiert, wie ja auch Ted Chiang in seinem Artikel über die Funktionsweise von LLMs beschreibt, und einem Menschen bei Kenntnis eines Inhalts schnell klar wird, dass essentielle Elemente oder wichtige Argumente fehlen und somit der Output des LLMs keine Zusammenfassung, sondern bestenfalls eine Kompression darstellt, was soll das alles dann?!

Da ich aber in meinem Umfeld häufig damit konfrontiert werde, wie gut die Zusammenfassungen durch ChatGPT funktionieren, gehe ich von einem Punkt aus, den Gerben Wierda in seinem mit Beispielen durchsetzten Artikel auch bringt, der aber weniger über die Leistung der Maschine als vielmehr über die Qualität des Textes, der von ihr zusammengefasst wird, aussagt:

So, when will shortening the text be good enough for a reliable summary? Probably only when summarising consists of nothing else than turning something unnecessarily repetitive and long-winding into something short, i.e. when volume is a good predictor of importance. That is far less of a use case than people think. [Oder eben doch, wie ich oben feststelle…] In the meantime, the result itself will — errors and all — suggest to readers that it is a true and reliable summary and we’re not going to doubt that, human as we are.

Es tauchen mehr und mehr Artikel auf, in denen auf die vielen Probleme von ChatGPT und anderen Künstlichen Intelligenzen hingewiesen wird. Probleme, die weniger augenscheinlich werden, wenn wir uns der Bequemlichkeit hingeben, von einer Maschine präzise Ergebnisse zu erwarten, das hat sie bisher ja auch. Aber mit Andeutungen und Vorschlägen – was sind denn Prompts anderes?! – und einem durch mathematische Funktionen produzierten, aber realistisch klingenden Text konfrontiert, legen wir – „human as we are“ – unseren sonst häufig doch recht kritischen Zugang ab und akzeptieren, was uns die Maschine vorlegt.

Wobei… jetzt, wo ich mir diesen letzten Gedanken noch einmal durch den Kopf gehen lasse, möchte ich ihn fast schon revidieren: Ist es nicht viel zu häufig so, dass wir bei einem maschinell produzierten Ergebnis grundsätzlich von einer Richtigkeit ausgehen, weil wir an die Sorgfalt bzw. Prüfung des das Ergebnis produzierenden Codes durch eine höhere Instanz vertrauen? Ja, den Gedanken haben, dass allein der Tatsache, dass es ein Gerät gibt, das diese Ergebnisse produziert, Arbeit vorangegangen sein muss, die die Validität dieser Daten de facto absichert? Wie oft hört man die Phrase „der Computer sagt“, die im Grunde genommen auch nur ein Proxy für „eine höhere Instanz hat das so programmieren lassen“ ist und somit automatisch in seiner Reliabilität und in seinem Wahrheitsgehalt in der Antwort auf eine gestellte Frage (oder einen Prompt) uns Menschen immer überlegen sein muss, auch wenn dem faktisch vielleicht gar nicht so ist?

Gerben Wierda führt auf seinem Blog eine Rubrik unter dem Titel „ChatGPT and Friends„, eine Sammlung an Beiträgen rund um das Thema KI und LLM, die ich besonders lesenswert finde, da er seiner Mission für die dort veröffentlichten Artikel, nämlich die Technologie selbst kritisch zu betrachten, treu bleibt und auf das Gesudere, das man dann hier bei mir und allen anderen findet, zu verzichten.

I quickly found out the information available on Generative AI was generally not helpful at all for understanding by the general public. There were many of those deep technical explanations [and] many pure-hype stories not based on any real understanding […] There were critical voices about the hype and sloppiness, but these were a very small minority. […] I noticed there were a few very essential characteristics of these systems that are generally ignored or simplified. These omissions/simplifications have a very misleading effect. […] One is that people experience that they are in a question/answer game with ChatGPT, but that is actually false, it only looks that way to us. The other is that people think that LLMs work on ‘words’ but this is a simplification […] that hides an essential insight.

Gehet und leset!

2 Kommentare

  1. Ich benutze KIs, u.a. auch ChatGPT. Die Zusammenfassungsfunktion von KIs generell ist ein noch größeres Problem als im Artikel dargestellt. Das wurde nicht angesprochen. Zusammenfassen scheint ein zentrales Feature oder angebliche „Stärke“ aller KIs zu sein, um die herum andere Fähigkeiten der KI gebaut sind. Sie ist derart dominant in allen KIs, dass auch, wenn man ihr ausdrücklich befiehlt NICHT zusammenzufassen und NICHT zu kürzen, sie es standardmäßig IMMER trotzdem tut. Dadurch kann man KIs derzeit zumindest nicht zur Umarbeitung und Umstrukturierung längerer Texte verwenden. „Länger“ bedeutet über 1-2 Seiten! Das betrifft nicht die angegebene Fähigkeit aller KIs Dokumente mit bis zu hunderten oder manche sogar tausenden Seiten „verarbeiten“ zu können. Es mag zwar sein, dass sie diese in ihren Speicher aufnehmen können. Das ist keine Kunst. Was nützt es aber dem Nutzer, wenn sie lange Dokumente in ihren Speicher aufnehmen, deren Inhalte aber dann entgegen Anweisungen zu großen Teilen bei einer möglichen Weiterverwendung oder Umarbeitung ignorieren oder aktiv „kürzen“ – entgegen aller Anweisungen. Das ist ein interner Zwang bei ALLEN KIs. Die im Artikel richtig kritisierte Kürzung ist nur die sichtbare Spitze des Eisbergs dieser KIs-Schwäche, die die Hersteller als Stärke verkaufen. Eine echte Täuschung der Nutzer/Verbraucher. Und bis heute schreibt fast niemand darüber. Alle konzentrieren sich nur darauf, welche Ergebnisse in verschiedenen KI-Standard-Tests erreicht haben. Diese grundlegende Fähigkeit aber, scheint niemand zu testen und als extreme Schwäche aller KIs offen zu legen. Deshalb bin ich dankbar darüber, dass dies einer der ersten Artikel ist, der diese gefährliche Schwäche aller KIs anspricht (nicht nur von ChatGPT), wenn auch nicht in seiner gesamten verheerenden Auswirkung für die Nutzer, die bis zur KI-Unbrauchbarkeit führt. Man kann mit KIs Texte über 1-2 Seiten nicht umstrukturieren, ohne deren Inhalte zu großen Teilen zu verlieren.

    • Danke für diesen Kommentar und Hinweis! Ich denke, das Argument, KIs könnten gar nicht anders als zusammenfassen (oder eben „kürzen“), kommt sehr gut in Ted Chiangs Beschreibung der Funktionsweise der LLM-/KI-Technologie zum Ausdruck, die er, sehr stark vereinfacht, ja als Kompression von Wissen auf Kosten von Details beschreibt. Dass das eine Schwäche ist, kommt auch in Ted Chiangs Artikel nicht so genau zur Geltung, aber dein Beispiel – die Umstrukturierung ohne Kürzung – trifft hier voll ins Schwarze. Deshalb, nocheinmal, danke für diesen Kommentar und Hinweis!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert