Daten von WordPress und Tumblr fürs AI-Training: die große Enttäuschung über Automattic

29. Feb. 2024

Automattic verkauft offenbar von Nutzer:innen geschaffene Daten von WordPress und Tumblr an Unternehmen, die damit ihre KI-Modelle trainieren. Das ist ein großer, nein: ein riesiger Vertrauensbruch, der die Community und ihre Beziehung zum Unternehmen nachhaltig verändern wird.

Nicht nur DocuSign, auch Automattic scheint nun Daten fürs AI Model Training zu verkaufen. Wenn stimmt, was ich auf 404 Media gefunden habe, dann ist das gar nicht gut, denn da steht: Alles, was Userinnen und User bei WordPress.com oder Tumblr jemals veröffentlicht haben (und, wie im 404 Media-Artikel herauskommt, auch solches, was sie nie veröffentlicht haben) wird und wurde an Unternehmen verkauft, die mit diesen Daten ihre AI Modelle trainieren können.

Tumblr and WordPress.com are preparing to sell user data to Midjourney and OpenAI […] The exact types of data from each platform going to each company are not spelled out in documentation we’ve reviewed, but internal communications reviewed by 404 Media make clear that deals between Automattic, the platforms’ parent company, and OpenAI and Midjourney are imminent.
Samantha Cole

Das alles dürfte stimmen, denn nur kurz nach Erscheinen des Artikel auf 404 Media hat Tumblr bereits einen Beitrag veröffentlicht, in dem auf die Möglichkeit eines Opt-Outs hingewiesen wird.

AI companies are acquiring content across the internet for a variety of purposes in all sorts of ways. […] Proposed regulations around the world […] would give individuals more control over whether and how their content is utilized by this emerging technology. We support this right […] so we’re releasing a toggle to opt out of sharing content from your public blogs with […] AI platforms that use this content for model training.
Tumblr

Und auch bei WordPress – und wenn in diesem Zusammenhang von WordPress gesprochen wird, dann geht es nicht um das Open Source-Content Management System, das man selbst installieren und betreiben kann, sondern um die von Automattic unter dem Namen WordPress.com betriebene Plattform auf Basis von WordPress; auch geht es nicht um mittels Jetpack an die Plattform angeschlossene, jedoch selbst betriebene Websites – wurde nun ein Beitrag veröffentlicht, der im Grunde dasselbe aussagt. So, wie es aussieht, haben die Tumblr-Leute den Beitrag von den WordPress-Leuten via ChatGPT umschreiben lassen – oder umgekehrt. Denn es steht im Grunde genau das gleiche drin.

We’re launching a new tool that lets you opt out of sharing content from your public blogs with third parties, including AI platforms that use such content for training models. […] We will engage with AI companies that we can have productive relationships with, and are working to give you an easy way to control access to your content. [An dieser Stelle kommt nun eine Paraphrase des Tumblr-Beitrags, die ich hier nicht wiedergebe, weil sie ohnehin oben zu finden ist. Essenz: Es gibt eine Option fürs Opt-Out.]
WordPress.com

Jürgen Geuter hat auf seinem Blog einen Beitrag veröffentlicht, der sich das “Automattic ‘AI’ thing” näher ansieht und für einige Aspekte klare Worte findet, die ich allesamt unterschreiben kann, vor allem, und deswegen habe ich dieses Argument im Zitat nicht gekürzt, den dritten Punkt. Denn so sehr man auch kritisieren kann, wie Automattic mit den Daten der Nutzer:innen seiner Plattform umgeht, der Umbau des der Plattform zugrundeliegenden Software, ist unumkehrbar und eben nicht mit einem “Toggle” reversibel gemacht. Bis heute, und es gibt das Gutenberg- bzw. Block-System schon ein paar Jahre, ist diese (in Wirklichkeit hoheitlich gefällte) Entscheidung wohl eine der unbeliebtesten, die das Open Source Projekt WordPress je erfahren hat.

Firstly it shouldn’t be “opt-out”: Making this feature a thing you need to actively reject shows how Automattic sees their user base and it’s not better than how Meta looks at their little content producer drones. […] Secondly it shows the fucking brainrot that the “AI” hype creates. WordPress a product that got its market and mind share because of enabling people to write, to publish, to be creative and expressive now tells you that anything you do is just data sludge to feed to whoever has the most NVIDIA cards to burn through. […] Thirdly this damage to the WordPress brand might affect the open source project as well. […] It was one of the few successful mainstream projects that actually got people to realistically choose not to post their stuff on Medium or Substack or some other closed hosting platform. Because while there are more open source publishing platforms really nothing is near WordPress’ sweet spot of features, ease of use, ease of deployment and plugin landscape. The fancy shmancy new tools running increasingly complex JavaScript stacks or even more obscure tech are not ready for non nerds to run (and often fragile as fuck). And that’s on the nerds and techies. We were so busy rewriting things in rust or JavaScript that we never thought about what to do when Automattic falls. We were very naive.
Jürgen Geuter

Ich persönliche finde es schade, dass eines der letzten, zumindest nach außen hin als “gut” wahrgenommenen Unternehmen sich mit dieser wirklich nicht gut durchdachten Aktion so dermaßen bekleckert hat. Automattic hat sein wahres Gesicht gezeigt, merkt Jürgen sinngemäß an, und das Vertrauen mit einem hässlichen Cut schlagartig zerstört.

This is about the things you do, the products of your creativity, your expressions of joy and anger and pain and love and beauty. It’s about a company who used to claim to support writers and other creators deciding that all you do, all the things you care enough to express in whatever imperfect, broken, dumb way are up for grabs to feed to a machine whose expressed purpose is to replace you, to drown your work in the digital equivalent to toxic waste.

All diese “Produkte deiner Kreativität” sind, sofern bei Automattic (also Tumblr oder WordPress.com) gelagert, zum Futterbrei für eine Technologie degradiert worden – ja, ich weiß, ich wiederhole gerade, was Jürgen so schön formuliert hat – deren bislang einzig bekanntes Ziel es ist, diejenigen zu ersetzen, die Zeit, Emotion, Reflexion, ja, alles was man im deutschen Sprachraum unter dem Sammelbegriff “Herzblut” zusammenfassen kann, in die Texte, Videos und Bilder investiert haben.

Wir haben Automattic vertraut und wissen nun, dass es ein Fehler war. Und das… das ist die große Enttäuschung, die wir nun alle in Bezug auf Automattic spüren.

Mehr zu

9 Kommentare

Alexander Felke

2. März 2024 / 03:44 Antworten

Acquire ist eine nette Umschreibung von Raubkopie. Da muß auch garnichts verkauft werden, da laufen einfach die Bots Tag und Nacht bei Google und Co. Die größten Verfechter von Datenschutz sind interessanterweise auch die AI Betreiber selbst, denn nur originärer Content ist relevant, nicht AI generierter. Die AI will sich also bitteschön an original aufgenommenen Fotos trainieren bitteschön. In Wirklichkeit ist es also noch viel dramatischer als im Artikel beschrieben. Ein Opt-Out ist lächerlich.
- Michael
  
  2. März 2024 / 06:54
  
  100% was du schreibst. Vor allem die letzten 4 Worte!
derlinzer

6. März 2024 / 13:48 Antworten

Late to the party Tumblr und WordPress betreffend, aber hier meine Gedanken:

So lange Automattic sich nicht dazu äussert, handelt es sich nur um Spekulationen. Ich kann auch keinen wirklichen Sinn darin erkennen, die Daten an AI-Firmen heranzutragen, wenn diese doch eh public crawlbar sind. So wie ich den Post auf Tumblr verstehe, bietet man Nutzern ein Opt-Out, das neben SE-Crawlern auf AI-Crawler erweitert wird. Wer also bisher schon Web-Crawler ausgeschlossen hat, dessen Block wird nun auch auf AI-Crawler angewendet.

Übersehe ich da was?
- Michael
  
  6. März 2024 / 16:13
  
  Naja, “nicht dazu äussern”… einige Angestellte haben sich dazu ja geäußert und sind um Schadensbegrenzung bemüht. Opt-Out ist okay, stimmt, aber wenn ein Unternehmen sich nach außen hin als, zumindest indirekt, auf der Seite der Kleinen präsentiert (“democratize publishing”), dann ist das eher unfein.
  
  Also alles in allem stimme ich dir schon zu, wenn du implizierst, dass da viel Lärm um nichts gemacht wird, auf der anderen Seite ist die Sache mit “public crawlbar” ja eben der umstrittene Punkt: Die Daten zu crawlen ist die eine Sache, sie für irgendeinen anderen Zweck als für Lektüre und Ansicht zu nutzen, ist ja, wenn ich es richtig verstehe, genau das Argument, mit dem sich zB die NY Times nun gegen OpenAI zur Wehr setzt. So ganz ohne dürfte die Sache also nicht sein.
  
  Und vielleicht würde das alles mit besserem Erwartungsmanagement eleganter gelöst werden. Wenn man aber erfährt, dass die eigenen Inhalte in einen Stream gepackt und an Unternehmen weiterverkauft werden, die sie dann als Trainingsmaterial für AI-Firmen weiterverkaufen, dann ist hier wohl die persönliche Enttäuschung über die Degradierung der eigenen Inhalt größer als die rein sachliche, die ich deinem Kommentar entnehme.
derlinzer

6. März 2024 / 16:25 Antworten

Aber das ist ja genau der Punkt: *eine* Seite bringt eine angebliche interne Message, dass beim Aufbereiten von Inhalten, die direkt an AI-Klitschen verhökert werden sollen, etwas schief gelaufen sein soll. Ich lese aus den Äusserungen von Automatic jetzt nichts zu diesen Spekulationen – weder Bestätigung noch Dementi. Ich denke nach wie vor, dass das ganze Aufbereiten doch wenig Sinn macht, wenn der Content doch eh zum Abgrasen bereit liegt. Klar, die NYT kann es sich leisten, dagegen vorzugehen. Welcher “kleine Anbieter” kann das?

Weiterer Punkt imo ist die EU: Man hat Apple – mehr schlecht als recht, aber immerhin – zu einer gewissen Öffnung zwingen können. Ich nehme an, dass es zumindest heikel ist, mit Content von EU-Nutzern Schindluder zu treiben, da der Tiger doch nicht ganz so zahnlos ist und empfindliche Strafen verhängen kann.

Abwarten. Weder will ich A. verteidigen – obwohl ganz ehrlich, welche nicht Arschloch-Firma gibt es dann überhaupt noch? – aber auch nicht vorverurteilen.
- Michael
  
  6. März 2024 / 16:33
  
  Ich bin gespannt, wie und ob Automattic “offiziell” darauf reagiert. Es ist ja verdächtig still um das Thema. Und dass gerade jetzt Herr Mullenweg zu allem, nur nicht dazu Stellung nimmt, auch ein bisschen eigenartig. Aber sei’s drum. Ich handhabe das genauso wie du: Abwarten. Mehr können wir eh nicht machen.
derlinzer

6. März 2024 / 16:52 Antworten

Mich erinnert das ganze an die Xbox-Spekulationen vor wenigen Wochen: Was wurde da nicht alles gemutmasst: Microsoft gibt Xbox-Hardware auf! Alles Xbox-Exclusives kommen für andere System! Verrat an den Xbox-Gamern! Was dabei rausgekommen ist, wissen wir ja.
- Michael
  
  6. März 2024 / 16:55
  
  Haha, ja, jetzt wo du’s sagst!

9 Kommentare

Schreibe einen KommentarAntwort abbrechen