Vorwurf des Datenklaus

KI-Fehde der USA mit China: Open AI bezichtigt Deep Seek, Modelle angezapft zu haben

Von Sebastian Edinger

IMAGO/NurPhoto

Trotz einer überschaubaren Modellgröße wettbewerbsfähige Leistung: Deep Seek hat die Fachwelt überrascht

Wenige Tage nachdem die Veröffentlichung des chinesischen KI-Modells Deep Seek Schockwellen durch das Silicon Valley und die Wall Street schickte, geht der bisherige Marktführer Open AI in die Offensive. Man habe Beweise, dass Deep Seek Open-AI-Modelle angezapft hat, um seine KI zu trainieren, behaupteten Vertreter des US-Konzerns am Donnerstag gegenüber der Financial Times. Das wäre ein Verstoß gegen die Nutzungsbedingungen, laut denen es unzulässig ist, Ausgaben von Systemen wie Chat-GPT für das Training anderer Modelle zu nutzen.

Bei den vermeintlichen Beweisen handelt es sich offenbar um Hinweise auf eine sogenannte Destillation, also eine Technik, mit der die Leistung kleinerer Modelle gesteigert wird, indem sie die Ausgaben größerer Modelle nutzen. Deep Seek hatte die Fachwelt vor allem damit überrascht, trotz einer überschaubaren Modellgröße – und damit verhältnismäßig niedrigen Entwicklungskosten – eine im globalen Maßstab wettbewerbsfähige Leistung zu bringen. Die Open-AI-Destillation wäre eine mögliche Erklärung dafür. Veröffentlicht hat Open AI seine Beweise jedoch nicht und will sich auch nicht weiter dazu äußern.

Sicherheitsexperten von Microsoft hatten bereits im vergangenen Herbst den Abfluss großer Datenmengen über eine Open-AI-Schnittstelle beobachtet und den Zugriff der entsprechenden Nutzerkonten blockiert, berichtet Bloomberg. Nun steht der Verdacht im Raum, dass Deep Seek dahintersteckt. Dieser wird auch vom KI-Koordinator des US-Präsidenten Donald Trump, David Sacks, genährt: »Es gibt substantielle Beweise dafür, dass Deep Seek hier das Wissen aus Open-AI-Modellen destilliert hat, und ich glaube nicht, dass Open AI darüber sehr glücklich ist«, sagte er gegenüber Fox News.

Nein, allzu glücklich wird die Führungsriege von Open AI nicht sein, angesichts der deutlich preiswerteren Konkurrenz aus der Volksrepublik. Man wird sich ärgern, die eigenen Schnittstellen nicht schneller dicht bekommen zu haben. Denn dass große Modelle auf diese Weise genutzt werden, um kleine Modelle zu verbessern, ist kein skandalöser Fall von Wirtschaftsspionage, sondern »gängige Praxis«, wie etwa Ritwik Gupta von der University of Carlifornia gegenüber Financial Times erläuterte. »Es überrascht mich nicht, dass Deep Seek angeblich dasselbe tut«, so Gupta weiter.

Open AI will nun Maßnahmen ergreifen, um sein geistiges Eigentum besser zu schützen. Wie schwierig es sein kann, den KI-basierten Datenabgriff zu stoppen, weiß man dort jedoch sehr gut. Schließlich hatte es das Unternehmen nach der Veröffentlichung von Chat-GPT selbst mit einer Reihe von Klagen wegen Verstößen gegen geistige Eigentumsrechte zu tun, weil man ohne Erlaubnis Daten aus online verfügbaren Artikeln und Büchern für das Modelltraining verwendet hatte. Konkret nachzuweisen, welche Daten wie in die Trainings einfließen, ist jedoch schwer. Davon profitierte seinerzeit Open AI, davon profitiert heute die Konkurrenz.

Ohnehin sind der Destillation, derer Deep Seek nun bezichtigt wird, praktische Grenzen gesetzt, da die Nutzung der Ausgaben anderer Modelle zu Qualitätsverlusten führt. Die Modelle halluzinieren dann mehr, produzieren also mehr falsche Antworten. »Es ist wie eine Fotokopie von einer Fotokopie«, veranschaulicht Mike Cook vom Kings College in London gegenüber Tech Crunch den Zusammenhang. »Man verliert mehr und mehr Informationen und Realitätsbezug.« Dass eine frühere Deep-Seek-Version gerne mal von sich selbst behauptete, Chat-GPT zu sein, könnte darauf hindeuten, dass es die Entwickler des Startups mit der Destillation etwas zu weit getrieben hatten.

Dass sich der Kampf um die globale KI-Vorherrschaft zwischen China und den USA zuspitzt, zeigen derweil auch aktuelle Investitionsankündigungen und die zunehmende Geschwindigkeit, mit der neue Modelle am Markt plaziert werden. So gibt die japanische Softbank an, über die im Rahmen des »Stargate«-Projekts bereits zugesagten Investitionen hinaus weitere 15 bis 25 Milliarden US-Dollar in Open AI pumpen zu wollen. In China haben zuletzt sowohl Alibaba als auch Byte Dance neue KI-Systeme präsentiert.

links & bündig gegen rechte Bünde

Jetzt den kostenlosen jW-Newsletter abonnieren – täglich das Beste aus der Tageszeitung junge Welt, direkt in Ihr Postfach. Ihre E-Mail-Adresse wird natürlich niemals an Dritte weitergegeben.

Leserbrief von Hagen Kühn (31. Januar 2025 um 15:01 Uhr)

Datenklau findet zwar immer und überall statt, aber seit Jahren gewinnen die Vorwürfe gegenüber China immer mehr an Lächerlichkeit. Man scheint damit die Illusion von der Überlegenheit des »Westens« und womöglich der »weißen Rasse« retten zu wollen. Das Australian Strategic Policy Institute hat in einer Studie von 2023 festgestellt, dass die Vereinigten Staaten noch in sieben von 44 definierten kritischen Technologiebereichen führend sind und China in 37. Das kann wohl kaum vom Datenklau kommen.
Leserbrief von Onlineabonnent/in Heinrich H. aus Stadum (30. Januar 2025 um 20:25 Uhr)

Vor einigen Jahren (so um 1968 herum) gab es den Spruch »Eigentum ist Diebstahl.« Ein paar andere Parolen waren auch im Umlauf, z. B. vom Lustprinzip. Themenwechsel: Warum kostet eine geldlich praktisch wertlose Kopie (Materialpreis einer DVD) für ein ziemlich unbrauchbares »Betriebssystem« dutzende bis hunderte Euro? Zumal Windows kein Virus sein kann, denn Viren sind strukturiert programmiert. Mal wieder die Wert- Preisfrage von mir, auch wenn’s nervt. Ach: Da war noch eine Parole, ein paar Tage älter als die 68er oben, da war von »moralischem Verschleiß« die Rede …