Die Washington Post hat sich die Liste der Websites angesehen, die KIs (konkret Google C4-Daten) als Trainingsdaten gedient haben. Neben sehr vielen journalistischen Websites und Websites, die sich mit dem Thema Wirtschaft befassen, ist Technologie ein großer Sektor. Und dort finden sich auch private Blogs.
The data set contained more than half a million personal blogs, representing 3.8 percent of categorized tokens. […] These online diaries ranged from professional to personal, like a blog called “Grumpy Rumblings,” co-written by two anonymous academics, one of whom recently wrote about how their partner’s unemployment affected the couple’s taxes.
Ich habe keine Ahnung, wie mein unwürdiger Blog in diese Liste (von teilweise äußerst fragwürdigen Websites) kommen konnte, aber da bin ich nun, 0,000005% eurer sinnlosen Anfragen an eine KI indirekt beantwortend. Ich habe keine Ahnung, was ich mit dieser Information jetzt machen soll, aber sie ist hiermit festgehalten.
Wer selbst einen Blog betreibt, kann übrigens direkt im Artikel prüfen, ob der – gewollt oder ungewollt – von Bots in die Trainingsdaten aufgenommen wurde.