Jannik Malte Meissner

Interview | DeepSeek und die Auswirkungen

3. Februar 2025 – In der zurückliegenden Woche hat ein neues Large Language Modell von der chinesischen Firma DeepSeek nicht nur die Tech-Welt in Aufruhr versetzt, sondern beherrschte auch weltweit die Wirtschaftsnachrichten und den allgemeinen Newsstream. Wir wollen verstehen, was genau passiert ist und sprechen heute mit Jannik Malte Meissner, einem AI-Unternehmer und Technologieexperten, der selber LLMs trainiert und finetuned.

 

ARIC: Jannik, du hast die Aufregung um DeepSeek R1 wie wir alle miterlebt, aber als Experte hast du bestimmt eine tiefere Perspektive, die uns interessiert. Wir wollen gemeinsam aufschlüsseln, was technologisch hinter den neuen Modellen von DeepSeek steckt und welche Folgen das für die AI-Szene aber auch für alle Unternehmen hat, die AI einsetzen wollen.

Also: Was genau ist bei DeepSeek passiert, dass alle so aufgeregt und nervös sind? Hat das einen ernsthaften Hintergrund oder ist das ein kurzfristiger Hype?

Jannik Meissner: Kurze Anmerkung, da in der Berichterstattung vieles durcheinander geht: Es gibt schon seit Dezember letzten Jahres DeepSeek V3 das Basismodell, das dadurch hervorsticht, dass es auf einem sehr effizienten Trainingsverfahren beruht. Dazu kommt jetzt DeepSeek R1, das auf der Basis von Reininforcement Learning (daher das R1) einen neuen Post-Training Ansatz verfolgt, der im Ergebnis sogar mit den besten propritären Modellen von OpenAI und Anthropic mithalten kann. Es ist das erste offene Modell, dass sich an die Spitze vieler Benchmarks gesetzt hat.

 

Es wurde behauptet, dass das Modell von DeekSeek für nur sechs Millionen Dollar trainiert wurde. Phil Schmid von Hugging Face, sagte für die Grundkosten, also für das reine Training des Basismodells, könnte das hinkommen. Aber das R1-Modell umfasst ja noch viel mehr. Kannst du aufschlüsseln, wie man ein solches Modell überhaupt trainiert und welche Stufen hier noch dazukommen und schätzen was da noch an Kosten hinzukommt?

Die oft aufgeführten Kosten beziehen sich vor allem auf eine Aussage aus dem Paper zu DeepSeek V3, also dem Basis-Modell auf dem R1 aufbaut. Jedoch geht es dort nur um eine hypothetische Summe, die auf angenommen Kosten von zwei Dollar pro Nutzungsstunde der hier eingesetzten H800 GPUs beruhen. Grundsätzlich stimme ich zu, dass die Stundenzahl und auch der angenommene Preis realistisch ist, aber es gibt dazu einige Einschränkungen. Zum einen muss vorab gesagt werden, dass HighFlyer, die Firma hinter DeepSeek die GPUs nicht mietet. Mein Verständnis ist, dass sie vor allem GPUs nutzen, die gerade nicht für das Kerngeschäft benötigt werden (HighFlyer ist ein Finanzunternehmen, dass sich auf Quantative Trading spezialisiert hat). Dementsprechend sind die zwei Dollar pro Stunde pro GPU nicht die tatsächlichen Kosten.

Darüber hinaus entstehen aber auch viele andere Kosten während der Entwicklungszeit, zum Beispiel in der Hyperparameter-Suche oder dem Vergleich verschiedener Initialisierungen, dem Vergleich verschiedener Methoden im Training und mehr, die hier auch nicht mit eingerechnet wurden. Für diese Prozesse werden oft viele kleinere Modelle testweise trainiert, um verschiedene Aspekte zu vergleichen.

Für die erste Trainings-Phase, das sogenannte Pre-Training wurden außerdem große Mengen Textdaten benötigt. Die Menge ist in etwa gleich zu der, die Meta für das Llama 3 Pre-Training genutzt hat: Jedoch ist auch hier davon auszugehen, dass mindestens ein Teil davon auch durch andere Modelle, wie z.B. OpenAI’s GPT-Modelle, Meta’s Llama 3 oder Anthropic’s Claude generiert wurde. Auch dafür fallen Kosten an, die nicht mit abgebildet wurden.

 

Ok, dann beschreib doch mal, wie so ein Modell entwickelt wird. Du hast sowas selber schon oft gemacht, führ uns mal durch den Prozess.

Wenn wir also Schritt für Schritt vorgehen:

  • Als erstes müssen die Daten vorbereitet werden. Hierfür werden sehr große Datenmengen automatisiert gefiltert und sortiert. Darauf geht das Paper nicht ein.
  • Im nächsten Schritt wird experimentiert, um die optimale Konfiguration des Modells, also die Hyperparamter, die Gesamtmenge der Trainingsdaten und Optimierungen für den Trainingsprozess zu bestimmen. Auch dies wird hier nicht erwähnt.
  • Danach kommt die Pre-Training Phase die mit circa 2,7 Millionen GPU-Stunden angegeben ist. Daraus resultiert das DeepSeek-V3-Basis-Modell.
  • Darauf folgen dann mehrere Post-Training Phasen. Im DeepSeek R1 Paper gibt es aber keine Angaben dazu, wie viel Rechenleistung hier eingesetzt wurde. Bevor diese eingeleitet wurden, wurde das DeepSeek R1-Zero Experiment durchgeführt, bei dem nur Reinforcement Learning zum Einsatz kam. Da dieses allerdings nicht zufrieden stellende Ergebnisse brachte, wurde dieses Modell nicht veröffentlicht. Ohne dieses Modell wäre die Entwicklung des finalen Modells aber nicht möglich gewesen.

Dieses finale Modell wurde zuerst mit Daten aus dem R1-Zero Modell sowie anderen nicht benannten Quellen trainiert, danach wurde die gleiche Methode wie die von R1-Zero angewendet, gefolgt von einem Supervised-Fine-Tuning für textlastige Arbeit und dann noch einmal einer Reinforcement Learning Phase. Zu den Kosten dazu gibt es aber keine Angabe.

 

einiges spricht dafür, dass Modelle wie Llama, GPT-4o, O1 oder auch Claude als sogenannte ‚Teacher Modelle‘ genutzt wurden

 

Du erwähnst gerade „andere nicht bekannte Quellen“. Ein Vorwurf, der DeepSeek gemacht wird, ist dass Large Language Models (LLMs) wie GPT-4 verwendet wurden, um das Modell zu trainieren (was laut ToS des Anbieters OpenAI verboten ist) oder dass sogar Inhalte illegal kopiert wurden. Kann da was dran sein?

Das halte ich für sehr realistisch. Die Modelle reden oft von sich als „ChatGPT von OpenAI“. Natürlich sind diese Textbausteine heute auch schon oft im Internet so zu finden und eventuell könnten sie auch aus einfachem Web Scraping gelernt worden sein, aber einiges spricht dafür, dass Modelle wie Llama, GPT-4o, O1 oder auch Claude als sogenannte „Teacher Modelle“ genutzt wurden. Das ist aber etwas, dass nicht nur auf DeepSeek zutrifft. Dies allein ist aber nicht der Grund für die gute Performance. Es ist sogar in meinen Augen wahrscheinlicher, dass diese Daten für das Training von Text-Fähigkeiten wie Gedichte und Übersetzungen und nicht für die besonders herausstechenden Logikfähigkeiten für Programmieraufgaben und Mathematik genutzt wurden.

 


Jannik Malte Meissner
Jannik Malte Meissner

 

Jannik Malte Meissner ist ein Technologieunternehmer und Software-Entwickler. Seit 2014 hat er sich auf Deep Learning spezialisiert. In der Vergangenheit gründete er Unternehmen in den Bereichen Clean-Tech, IT-Infrastruktur und Retail Analytics.

Jannik ist Mitgründer des Startups Neuralfinity in Hamburg & London, das eine Trainingsplattform für maßgeschneiderte, aufgabenspezifische große Sprachmodelle und Vision-Sprachmodelle entwickelt. Sein Fokus liegt insbesondere auf der Weiterentwicklung und Skalierung von Transformermodellen.

 

 


 

Ok, dann noch mal zur Technik. Was ist genau das Innovative in dem DeepSeek Modell? Bisher war die Grundannahme der sogenannten Scaling Hypothese, dass wir die bestehenden Modelle (insbesondere, die mit der Transformer-Architektur) einfach nur größer machen und mit mehr Daten trainieren müssen. Es gibt aber jetzt schon Abweichungen von der „naiven“ Scaling Annahme, z.B. durch differenzierte Architekturen wie Mixture of Experts und Variationen in den Attention-Verfahren, sowie den sogenannten Reasoning Methoden wie „Chain of Thought“. Was ist das Neue bei DeepSeek?

Neu ist hier vor allem das Post-Training: Im Pre-Training sind zwar viele Effizienzgewinne erzielt worden, allerdings unterstreichen diese eher die bisherige Scaling Hypothese. Das aktuelle heiße Thema hier ist das sogenannte Test-Time Compute. Dies beschreibt einen Ansatz zur dynamischen Anpassung der Rechenressourcen während der Inferenzphase eines LLMs. Dabei wird die Menge der verwendeten Rechenleistung basierend auf der Komplexität der jeweiligen Aufgabe optimiert – einfache Aufgaben erhalten weniger Ressourcen, während komplexere Aufgaben mehr Rechenleistung zugeteilt bekommen. Dies erfolgt durch Mechanismen wie iterative Überarbeitungen oder paralleles Sampling, um die Effizienz zu maximieren und unnötigen Rechenaufwand zu vermeiden. Dieser Ansatz ist nicht neu, aber DeepSeek R1 ist das erste Open-Weights Modell, das dies erfolgreich umsetzt.

Um Test-Time Compute Scaling zu erreichen, setzt das Team hinter R1 hier auf eine Methode, die sie Group Relative Policy Optimization“ (GRPO) nennen und im April letzten Jahres in einem Paper erstmalig vorgestellt haben. Hierbei handelt es sich um eine Form von Reinforcemement Learning, welches ohne zusätzliches externes Modell auskommt. Diese Methode ist relativ effizient und führt dazu, dass das Modell selbst erlernt, wie es Test-Time Compute effizient nutzt und kann ohne vorherigen Input selbst Chain of Thought und andere Methoden entwickeln. Schlussendlich war es aber laut dem Paper zielführender, diese Methode erst anzuwenden, nachdem das Modell bereits mit händisch selektierten Beispielen etwas antrainiert wurde.

 

Reinforcement Learning (RL) war ja auch der Durchbruch bei AI-Modellen wie AlphaGo und AlphaFold. In beiden Fällen hat RL die bestehenden Modelle auf ein völlig neues Niveau gebracht. Erwartest du das auch bei LLMs und gibt es noch weitere Sprünge in der Qualität, die durch intelligente Verfahren jenseits des more-data-more-compute zu erwarten sind?

Es ist jedenfalls nicht auszuschließen. Das Paper lässt aktuell noch offen, wie sich die kleineren Modelle verhalten, die aus dem R1 Modell destilliert wurden, wenn man noch einmal eine Phase des Reinforcement Learnings dran hängt. Dazu werde ich selbst in den kommenden Wochen auch noch ein paar Experimente machen.

 

Nun mal zu den wirtschaftlichen Auswirkungen. Die Aktie von Nvidia ist innerhalb eines Tages um 17 Prozent gesunken. Ist durch die neue Effizienz weniger Hardware nötig, da LLMs jetzt mit viel weniger Ressourcen trainiert und betrieben werden können?

Das halte ich für einen Trugschluss: Ich verweise hier auf das Jevon-Paradox, das besagt: Je effizienter Training wird, desto mehr Leute werden es versuchen und anwenden, was zur Folge hat, dass schlussendlich mehr Compute benötigt wird.

Dazu kommt, dass viele der Effizienzgewinne beim Pre-Training durch die Verwendung von Funktionen erreicht wurden, die erst mit der Hopper-Hardware von Nvidia zur Verfügung standen. Um davon Gebrauch zu machen, müssen also viele, die noch die Ampere-Architektur oder ältere GPUs nutzen, dann ihre Hardware upgraden.

 

„Der amerikanische Bias ist unserem kulturell näher, weshalb er oft weniger auffällig ist.“

 

Bei anderen chinesischen Produkten wie beispielsweise TikTok ist das Thema Datenschutz und politischer Bias ein heißes Thema. Auch DeepSeek hat in seinen Terms of Service stehen, dass die Daten für Training genutzt werden und gemäß chinesischem Recht an die chinesischen Behörden weitergegeben werden. Das ist doch für Konsument:innen und Developer ein echtes No-Go, oder?

Damit ist es aus europäischer Sicht ähnlich wie die US-amerikanischen Modelle einzustufen. Allerdings können die Datenschutz-Probleme zumindest dadurch umgangen werden, dass es als Open-Weights Modell auch auf eigenen Servern ausgeführt werden kann. Das geht mit den Modellen hinter ChatGPT zum Beispiel nur in der Microsoft Cloud, die ja auch wieder nach Meinung vieler Experten auch bei europäischen Serverstandorten am Ende durch Patriot Act und Cloud Act US Recht unterliegt.

Was den Bias angeht, trifft auch das auf jedes Modell zu: Sie reflektieren immer den Bias und den sozialen Kontext derer, die sie trainieren. Der amerikanische Bias ist unserem kulturell näher, weshalb er oft weniger auffällig ist. Gerade auch deshalb wäre es schön, wenn wir in Europa etwas ambitionierter mit dem Thema KI umgehen würden und uns auch selbst vornehmen würden, eigene „Frontier Modelle“ zu entwickeln. Für viele Use Cases reichen allerdings schon deutlich kleinere Modelle, von denen wir hier in Europa auch immer mehr haben. Mistral hat zum Beispiel gerade heute wieder ein neues vorgestellt.

 

das Modell (…) kann nicht unabhängig reproduziert werden und entspricht meines Erachtens nach nicht dem Grundsatz von Open Source

 

Abschließend noch eine Frage zu Open Source. Die DeepSeek Modelle sind ja Open Source. Durch den Eigenbetrieb wäre die Gefahr eines unkontrollierten Datenabfluss gebannt. Die in der DeepSeek App beobachteten „Safeguards“, die einen Teil der Inhalte zensieren, sind in der OpenSource Version auch nicht drin. Müssen wir aber trotzdem befürchten, dass in dem Modell Verzerrungen und Zensur drin ist, die wir nicht wieder rausbekommen und den professionellen Einsatz eines solchen Modells in Frage stellen? Wie kann man das feststellen und eventuell „wegtunen“?

Open Source ist hier leider auch eine Frage der Definition. Leider sind weder der Trainings-Code noch die Daten dazu offengelegt worden. Wir haben also nur ein Paper, Open Weights und Inferenz und Fine-Tuning Code. Damit kann das Modell nicht unabhängig reproduziert werden und entspricht meines Erachtens nach nicht dem Grundsatz von Open Source, sondern nur Open Weigths.

Einige Biases sind auf jeden Fall enthalten, wie auch in allen anderen Modellen. Das Erkennen und Entfernen dieser Biases wäre sicher ein spannendes Open Source Projekt. Öffentlich ist mir dazu nichts bekannt, auch wenn es dazu schon Forschung gibt. Bei Google ist der Versuch Biases wegzumanagen bekanntermaßen schon einmal schief gegangen.

 

Zuletzt eine Spezialfrage, die uns alle, die gerade mit RAG (Retrieval Augmented Generation) experimentieren, interessiert. Ist der sehr langwierige „Thought“-Prozess in den DeepSeek Modellen nicht übertrieben und ineffizient für einfache Fragen oder die Generierung von Antworten auf der Basis von RAG-Kontexten? Kann man das abschalten? Oder ist man mit anderen Modellen da besser bedient?

Das kommt auf den Anwendungsfall an. Wenn es um das Finden von Lösungswegen geht, z.B. bei der Automation in Software-Entwicklungsprozessen, Bio-Technologie oder Theoretischer Mathematik, dann kann ein solches Modell wie das von DeepSeek viel Mehrwert bringen, wenn z.B. einige Code-Beispiele, interne APIs oder anderes internes Wissen mit dem Chain-of-Thought Prozess verknüpft wird.

Für einfache Text- und Formulierungsarbeiten oder Frage-Antwort-Anwendungsfälle, die keine komplexen Problemlösungsansätze benötigen, würde ich auf jeden Fall zu deutlich kleineren Modellen raten, die dann auch im Betrieb deutlich günstiger sind.

 

Wir danken dir für diese interessanten Einblicke und wünschen dir weiterhin viel Erfolg mit deinem Unternehmen Neuralfinity!

Interview: Werner Bogula

 


Anmerkungen:

  • Wir als ARIC empfehlen euch, DeepSeek nicht zu nutzen – weder als Endnutzer:in in der App oder der Webversion, und auch nicht als Developer die API.
  • Mit unseren Interviews wollen wir euch verschiedenen Perspektiven und Akteure im Themenfeld KI vorstellen. Die Positionen unserer Interviewpartner:innen spiegeln nicht zwingend die Positionen des ARIC wider.

 

Weitere Interviews: