
Hintergrund
7 Fragen und Antworten zu DeepSeek
von Samuel Buchmann
Ein neues Open-Source-Sprachmodell aus der Schweiz unterstützt über 1000 Sprachen und bietet 70 Milliarden Parameter. Damit ist es ähnlich gross wie Metas Llama 3 und soll eine Alternative zu proprietären LLMs bieten.
Die ETH Zürich und die EPFL haben ein vollständig offenes Large Language Model (LLM) entwickelt. Es soll im Spätsommer 2025 erscheinen. Das Modell unterstützt laut Medienmitteilung über 1000 Sprachen. Trainiert wurde es auf dem Supercomputer «Alps» des Schweizer Supercomputer-Zentrum CSCS.
Im Unterschied zu proprietären LLMs, wie zum Beispiel von OpenAI oder Anthropic, setzt das Schweizer Modell auf Transparenz. Sowohl Quellcode als auch Modellgewichte und Trainingsdaten werden zur Verfügung gestellt. Das ist in der Branche bislang selten. LLMs von Meta und DeepSeek sind zwar «Open Weight», aber nicht vollständig «Open Source». Das heisst, die Algorithmen und Trainingsdaten bleiben unter Verschluss.
Das Modell der ETH wird in zwei Versionen erscheinen – mit acht und 70 Milliarden Parameter. Letzteres ist vergleichbar mit Metas Llama 3. GPT-4 von OpenAI wird auf etwa 1800 Milliarden Parameter geschätzt, Anthropics Claude 4 Opus auf rund 300 Milliarden. Die Anzahl Parameter ist nicht die einzige Metrik für die Leistung eines LLMs, aber ein Indiz. Proprietäre Modelle erreichen aktuell bei Benchmarks die höchsten Scores. Doch Open-Source-Modelle bieten Vorteile hinsichtlich Nachvollziehbarkeit, Anpassbarkeit und Datenkontrolle.
Bei der Entwicklung des LLMs werden die schweizerischen Datenschutzgesetze, das schweizerische Urheberrecht und die Transparenzverpflichtungen im Rahmen der KI-Verordnung der EU (EU AI Act) berücksichtigt. Gemäss einer aktuellen Studie der Projektleitenden bringt es für alltägliche Aufgaben praktisch keine Leistungseinbussen mit sich, wenn bei der Datengewinnung die Opt-outs für Web-Crawling respektiert werden — und das Training damit gewisse Web-Inhalte ignoriert.
Das Modell wird unter der Apache-2.0-Lizenz veröffentlicht. Damit soll es sowohl für wissenschaftliche als auch industrielle Anwendungen zugänglich sein. Es ist ein Resultat der Swiss AI Initiative, die im Dezember 2023 von der EPFL und der ETH Zürich lanciert wurde. Mit über 800 beteiligten Forschenden und dem Zugang zu über 20 Millionen GPU-Stunden pro Jahr auf dem Supercomputer am CSCS ist es das weltweit grösste Open-Science- und Open-Source-Projekt zu KI-Basismodellen.
Mein Fingerabdruck verändert sich regelmässig so stark, dass mein MacBook ihn nicht mehr erkennt. Der Grund: Wenn ich nicht gerade vor einem Bildschirm oder hinter einer Kamera hänge, dann an meinen Fingerspitzen in einer Felswand.