Bei Benedikt drüben lese ich über die peinliche KI-Synchronisation bei YouTube, etwas, das mir zwar schon länger aufgefallen ist, das mir aber – mittlerweile dem Gewöhnungseffekt unterliegend – in dieser Klarheit schlichtweg nicht und nicht bewusst wurde.
Seit einigen Tagen starten bei mir YouTube-Videos von US-YouTuber:innen mit deutscher Tonspur – und ganz offensichtlich und ganz, ganz schlecht mit KI generiert. […] Allerdings auf Mickey-Mouse-Stimme hochgepitcht, damit der deutsche Text mit dem in der Regel kürzeren US-Original Schritt halten kann. Das Ergebnis ist eine peinliche Vollkatastrophe, die für die User:in sofort zum Stoppen des Videos führt und man verzweifelt nach der Option sucht, wie man das wieder abstellen kann […] oder sich schlicht fragt, was zum Geier denn da los ist.
benedikt.io
Ja, genau so ist das und ich teile die Kritik. Ich habe mir auch das Nomads Nation-Video, das Benedikt in seinem Artikel als Anschauungsbeispiel erwähnt, angesehen. Es wurde bei mir per default mit der peinlich synthetischen, deutschen Stimme ausgespielt und enthielt einige, massiv beschleunigte Passagen mit der im obigen Zitat erwähnten Mickey-Mouse-Stimme. Wechselte ich die Audioausgabe auf „US-English (original)“ war alles wieder gut. Aber die Standardeinstellung war definitiv die „deutsche“ Version.
Das Problem mit dieser Synchronisation, die, jetzt, wo wir von Benedikt genau erfahren, was Sache ist, unangenehm und peinlich wirkt, ist, dass wir uns jetzt schon (!) daran gewöhnt haben. Praktisch jedes Video auf TikTok und sehr viele Videos woanders werden mit diesen unangenehmen KI-Stimmen verschandelt – und zwar in einem Ausmaß, das sie (die Stimme) normal und üblich erscheinen lässt. Als ich das Nomads Nation-Video gestartet habe, musste ich mir erst die Synthetik und die unnatürlich wirkende Sprache vergegenwärtigen, um mir bewusst zu machen, dass ich schon wieder mit KI-Müll abgespeist werde. Und genau darin liegt meiner Meinung nach das große Problem: Irgendwann werden KI-generierte Stimmen so allgemein angewendet werden, dass eine natürlich Stimme in Zukunft unnatürlich und ungewohnt wirken wird. Ihr denkt euch, ich übertreibe und es wird immer menschliche Sprecherinnen und Sprecher geben, die Hintergrundtexte bei Marketingvideos vorlesen? Sprechen wir in 5 Jahren noch einmal zu dem Thema, wenn – davon bin ich überzeugt – jede, wirklich jede Stimme, die aus dem Off kommt, selbst in der Originalsprache des Videos, von einer KI-generiert sein wird.
Wenn wir jetzt schon beobachten können, dass Megakonzerne ein über Jahrzehnte aufgebautes Image mit KI-generiertem Crap aufs Spiel setzen (als Beispiel verweise ich auf das katastrophal schreckliche Remake der Coca-Cola-Weihnachtswerbung), dann sehe ich nicht, wieso sich nicht auch die kleinen Player auf die Möglichkeit, Texte, Videos und ganze Clips mit KI zu generieren stützen sollten. Was YouTube mit der Auto-Synchronisierung uns vormacht, ist ja nur der erste Schritt, glaube ich. Früher oder später wird die Tonspur eines Videos nicht mehr Audiodaten beinhalten, sondern zugunsten einer Datenspur verschwinden, die nicht nur den vorzutragenden Inhalte, sondern eine normierte Charakterisierung der Stimme beinhalten wird, die auch in der Originalsprache vortragen wird, was vorgetragen werden soll.
Was Benedikt (und ich) also noch als peinliche KI-Synchronisation bei YouTube bezeichnen ist, so meine ich, die Zukunft jeglicher Audiospur bei jedem einzelnen in Zukunft produzierten Video. Ich hoffe, ich kann in fünf Jahren sagen, ich hätte mich bei dieser Prognose geirrt.
Vielen Dank für die Verlinkung! (Und sorry, ist wieder länger geworden. 😅) Die Sache hat ganz schön viele Aspekte, zunächst mal als Update: Bei neueren Videos kommt nicht nur das Feature nicht mehr zum Einsatz, es gibt die Audiotrack-Option gar nicht mehr. Außer beim neuesten Nomads-Nation-Video – und dort fehlt nun aber genau Deutsch, sehr interessant. Und im aktuellen Beispiel befindet sich im Web bei mir nun unter dem Titel ein etwas reingequetscht wirkendes Label namens „Automatisch synchronisiert“ (leider nicht interaktiv), das wäre mir vorher nicht aufgefallen. In den Kommentaren jedenfalls kein einziger Hinweis auf miese Synchro. 🤔 Alles etwas schräg, wäre interessant, was da hinter den Kulissen vorgeht.
Dass das auf TikTok der Normalfall ist, war mir als Nichtuser gar nicht bewusst – ein Grund mehr, der Plattform fernzubleiben. Spannend jedenfalls, dass das für dich somit nicht mal ungewohnt war und für mich voll. Wie wir damit umgehen werden, wenn das einmal nicht mehr unterscheidbar ist? Sehr gute Frage.
Dass das aber alles grundsätzlich in die Richtung geht, ist wohl der Lauf der Dinge und wenn es mal die Qualität einer aktuellen, hochwertigen Synchronisation hat, hätte es wohl auch seine Daseinsberechtigung oder, besser gesagt, zumindest Anwendungsfälle.
Aber selbst wenn die Qualität passt: Will man das dann überhaupt? Im Kino finden wir handgemachte Stunts wieder toll. Apropos (und andererseits): Schon gehört, mit welchen Songs Cineplexx seine Vorschau (die rot umrahmte ohne O-Ton bei Saaleinlass) unterlegt? Womöglich wird es, wie so oft, irgendwas dazwischen: Da, wo uns die „Seele eines Dings“ egal ist (Durchsagen, Zutatenauflistung, Betriebsanleitung etc.) wirds auch generative AI tun. Beim Rest brauchen wir dann, egal ob Text, Audio oder Video, wohl eine Art Echtheits- bzw. Gütesiegel wie AMA, Zurück zum Ursprung und Co. 😆
PS: Die Coca-Cola-Werbung auf AI habe ich mir jetzt zum ersten Mal angesehen und die nicht nur schrecklich schlecht, sondern halt auch schrecklich einfallslos. Da hätte man schon ironisch auf AI anspielen, dann aber z.B. irgendwie mit „The Real Thing“ kontern können, was ja auch mal ein Slogan war. Einfach nur ein AI-Remake ist halt echt witzlos.