Gerben Wierda hat eine interessante Beobachtung gemacht: Lässt man ChatGPT einen Text zusammenfassen, dann ist das Ergebnis keine Zusammenfassung, sondern eine Kürzung, die aber wie eine Zusammenfassung wirkt. Das dem so ist, lässt sich recht einfach aus der Mechanik eines Large Language Model ableiten:
When you ask ChatGPT to summarise this text, it instead shortens the text. And there is a fundamental difference between the two. To summarise, you need to understand what the paper is saying. To shorten text, not so much. To truly summarise, you need to be able to detect that from 40 sentences, 35 are leading up to the 36th, 4 follow it with some additional remarks, but it is that 36th that is essential for the summary and that without that 36th, the content is lost. […] The situation is even worse. If I have 35 sentences of circumstance leading up to a single sentence of conclusion, the LLM mechanism will — simply because of how the attention mechanism works with the volume of those 35 — find the ’35’ less relevant sentences more important than the single key one. So, in a case like that it will actively suppress the key sentence. […] After this experience with summarising — something that was on my list as a potential realistic use case — I am less optimistic that there will be reliable enough use cases for LLMs for real business uses.
Gerben Wierda
Wenn die „Leistung“ von ChatGPT in so einem Fall tatsächlich auf recht grundlegenden Funktionen basiert, wie ja auch Ted Chiang in seinem Artikel über die Funktionsweise von LLMs beschreibt, und einem Menschen bei Kenntnis eines Inhalts schnell klar wird, dass essentielle Elemente oder wichtige Argumente fehlen und somit der Output des LLMs keine Zusammenfassung, sondern bestenfalls eine Kompression darstellt, was soll das alles dann?!
Da ich aber in meinem Umfeld häufig damit konfrontiert werde, wie gut die Zusammenfassungen durch ChatGPT funktionieren, gehe ich von einem Punkt aus, den Gerben Wierda in seinem mit Beispielen durchsetzten Artikel auch bringt, der aber weniger über die Leistung der Maschine als vielmehr über die Qualität des Textes, der von ihr zusammengefasst wird, aussagt:
So, when will shortening the text be good enough for a reliable summary? Probably only when summarising consists of nothing else than turning something unnecessarily repetitive and long-winding into something short, i.e. when volume is a good predictor of importance. That is far less of a use case than people think. [Oder eben doch, wie ich oben feststelle…] In the meantime, the result itself will — errors and all — suggest to readers that it is a true and reliable summary and we’re not going to doubt that, human as we are.
Es tauchen mehr und mehr Artikel auf, in denen auf die vielen Probleme von ChatGPT und anderen Künstlichen Intelligenzen hingewiesen wird. Probleme, die weniger augenscheinlich werden, wenn wir uns der Bequemlichkeit hingeben, von einer Maschine präzise Ergebnisse zu erwarten, das hat sie bisher ja auch. Aber mit Andeutungen und Vorschlägen – was sind denn Prompts anderes?! – und einem durch mathematische Funktionen produzierten, aber realistisch klingenden Text konfrontiert, legen wir – „human as we are“ – unseren sonst häufig doch recht kritischen Zugang ab und akzeptieren, was uns die Maschine vorlegt.
Wobei… jetzt, wo ich mir diesen letzten Gedanken noch einmal durch den Kopf gehen lasse, möchte ich ihn fast schon revidieren: Ist es nicht viel zu häufig so, dass wir bei einem maschinell produzierten Ergebnis grundsätzlich von einer Richtigkeit ausgehen, weil wir an die Sorgfalt bzw. Prüfung des das Ergebnis produzierenden Codes durch eine höhere Instanz vertrauen? Ja, den Gedanken haben, dass allein der Tatsache, dass es ein Gerät gibt, das diese Ergebnisse produziert, Arbeit vorangegangen sein muss, die die Validität dieser Daten de facto absichert? Wie oft hört man die Phrase „der Computer sagt“, die im Grunde genommen auch nur ein Proxy für „eine höhere Instanz hat das so programmieren lassen“ ist und somit automatisch in seiner Reliabilität und in seinem Wahrheitsgehalt in der Antwort auf eine gestellte Frage (oder einen Prompt) uns Menschen immer überlegen sein muss, auch wenn dem faktisch vielleicht gar nicht so ist?
Gerben Wierda führt auf seinem Blog eine Rubrik unter dem Titel „ChatGPT and Friends„, eine Sammlung an Beiträgen rund um das Thema KI und LLM, die ich besonders lesenswert finde, da er seiner Mission für die dort veröffentlichten Artikel, nämlich die Technologie selbst kritisch zu betrachten, treu bleibt und auf das Gesudere, das man dann hier bei mir und allen anderen findet, zu verzichten.
I quickly found out the information available on Generative AI was generally not helpful at all for understanding by the general public. There were many of those deep technical explanations [and] many pure-hype stories not based on any real understanding […] There were critical voices about the hype and sloppiness, but these were a very small minority. […] I noticed there were a few very essential characteristics of these systems that are generally ignored or simplified. These omissions/simplifications have a very misleading effect. […] One is that people experience that they are in a question/answer game with ChatGPT, but that is actually false, it only looks that way to us. The other is that people think that LLMs work on ‘words’ but this is a simplification […] that hides an essential insight.
Gehet und leset!