DeepSeek plant V4-Start für Mitte Juli mit neuer API-Preisgestaltung

June 29, 2026

DeepSeek gab am Sonntag bekannt, dass sein V4-Modell offiziell Mitte Juli mit einer API-Preisgestaltung für Spitzen- und Nebenzeiten starten wird, die die Raten während der Stoßzeiten verdoppelt.news.futunn
Das Team hat zudem DSpark als Open-Source veröffentlicht, ein Framework für spekulative Dekodierung, das in Zusammenarbeit mit der Peking-Universität entwickelt wurde und die Generierung pro Nutzer um bis zu 85 % beschleunigt.marktechpost+1
DSpark ist bereits in den Produktionssystemen von DeepSeek im Einsatz und funktioniert mit Modellen von Drittanbietern, darunter Qwen von Alibaba und Gemma von Google.digg+1

Forscher der Peking-Universität und von DeepSeek veröffentlichten am 27. Juni DSpark, ein Open-Source-Framework für spekulative Dekodierung, das die Inferenz großer Sprachmodelle in Live-Produktionssystemen um 60 bis 85 Prozent pro Nutzer beschleunigt. Dies ist die erste große technische Veröffentlichung des chinesischen KI-Labors seit seiner Finanzierungsrunde in Höhe von 7 Milliarden US-Dollar.marktechpost+2

Funktionsweise von DSpark

Die spekulative Dekodierung unterteilt die Textgenerierung in zwei Rollen: Ein kleines, schnelles Entwurfsmodell schlägt eine Reihe von Token vor, und das vollständige Zielmodell überprüft diese Reihe in einem einzigen Durchlauf und behält alle Token bei, denen es zustimmt. DSpark verbessert frühere Ansätze durch zwei Ergänzungen. Erstens wird kein separates Entwurfsmodell von Grund auf trainiert, sondern ein leichtgewichtiger spekulativer Kopf direkt auf den bestehenden Modell-Checkpoint aufgepfropft – was bedeutet, dass die Ausgabequalität des zugrunde liegenden Modells unverändert bleibt. Zweitens weist ein Konfidenzbewertungssystem jedem entworfenen Token eine Wahrscheinlichkeit zu, die Überprüfung zu überstehen, während ein hardwarebewusster Planer anpasst, wie viele Token basierend auf der aktuellen GPU-Auslastung überprüft werden. Bei geringem Datenverkehr überprüft das System längere Vermutungsreihen; bei hohem Datenverkehr verwirft es Token mit geringer Konfidenz, bevor sie Rechenleistung verbrauchen.digg+3

Leistung und Kompatibilität

In der Online-Produktionsumgebung von DeepSeek, die echten Nutzerverkehr verarbeitet, lieferte DSpark eine 60 bis 85 Prozent schnellere Generierung für einzelne Nutzer bei V4-Flash und 57 bis 78 Prozent bei V4-Pro im Vergleich zur vorherigen MTP-1-Basislinie von DeepSeek. Unter bestimmten Latenzbedingungen erreichten die Durchsatzgewinne bis zu 661 Prozent bei Flash und 406 Prozent bei Pro. Offline-Benchmarks zeigten, dass die Länge der akzeptierten Token um 26 bis 31 Prozent gegenüber Eagle3 und um 16 bis 18 Prozent gegenüber DFlash stieg.youtube+2

Das Framework ist modellunabhängig. DeepSeek demonstrierte die Kompatibilität mit den Checkpoints von Alibabas Qwen3 und Googles Alphabet Inc. Gemma. Neben DSpark veröffentlichte das Team DeepSpec als Open-Source, eine Full-Stack-Codebasis zum Trainieren und Evaluieren von Entwurfsmodellen für spekulative Dekodierung, alles unter einer MIT-Lizenz auf GitHub.marktechpost+3

Breiterer Kontext

Die Veröffentlichung erfolgt, während sich DeepSeek darauf vorbereitet, sein V4-Modell offiziell Mitte Juli mit einem neuen API-Preismechanismus für Spitzen- und Nebenzeiten einzuführen. DSpark ist bereits vollständig in den Online-Diensten von DeepSeek implementiert und reduziert die verschwendete GPU-Rechenleistung durch ungültige Überprüfungen, während die Ausgabequalität identisch mit dem Basismodell bleibt. DeepSeek-Gründer Liang Wenfeng war Mitautor des begleitenden Papiers mit dem Titel „DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation“.pandaily+1

Sources (14)

1 DeepSeek V4 is scheduled for mid-July, with concurrent ... news.futunn.com
2 DeepSeek Releases DSpark, a Speculative Decoding Framework ... www.marktechpost.com
3 DeepSeek DSpark Boosts Generation Speed by 85% in First Post ... pandaily.com
4 DeepSeek-AI and Peking University open-source DSpark, using ... digg.com
5 Open Source Speculative Decoding for 85% Faster Inference www.youtube.com
6 DSpark - DeepSeek Just Made Inference 85% Faster - YouTube www.youtube.com
7 DeepSpec: a full-stack codebase for training and ... - GitHub github.com
8 DeepSeek's DSpark Brings Speculative Decoding Back Into the ... dev.to
9 Open Source Inference Frameworks - Aussie AI www.aussieai.com
10 hemingkx/SpecDec: Codes for our paper "Speculative Decoding github.com
11 Best Inference Framework & Open Models for Orchestrator-Workers ... forums.developer.nvidia.com
12 mscheong01/speculative_decoding.c: minimal C implementation of ... github.com
13 DSpark: Speculative decoding accelerates LLM inference [pdf] www.reddit.com
14 DeepSpec/DSpark_paper.pdf at main · deepseek-ai ... - GitHub github.com

Breaking News

Popular News

DeepSeek plant V4-Start für Mitte Juli mit neuer API-Preisgestaltung

Funktionsweise von DSpark

Leistung und Kompatibilität

Breiterer Kontext

Schreibe einen KommentarAntwort abbrechen

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Funktionsweise von DSpark

Leistung und Kompatibilität

Breiterer Kontext

Ähnliche Beiträge

JWST entdeckt die am weitesten entfernte Balkenspiralgalaxie, die je gesehen wurde

Huawei veröffentlicht Massenproduktionsdaten zur Untermauerung des Tau-Skalierungsgesetzes

Micron beginnt Bau der 9-Milliarden-Dollar-Erweiterung in Hiroshima für KI-Speicherchips

Schreibe einen KommentarAntwort abbrechen

Stay informed and not overwhelmed, subscribe now!