Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

news.futunnmarktechpost+1digg+1Forscher der Peking-Universität und von DeepSeek veröffentlichten am 27. Juni DSpark, ein Open-Source-Framework für spekulative Dekodierung, das die Inferenz großer Sprachmodelle in Live-Produktionssystemen um 60 bis 85 Prozent pro Nutzer beschleunigt. Dies ist die erste große technische Veröffentlichung des chinesischen KI-Labors seit seiner Finanzierungsrunde in Höhe von 7 Milliarden US-Dollar.marktechpost+2
Die spekulative Dekodierung unterteilt die Textgenerierung in zwei Rollen: Ein kleines, schnelles Entwurfsmodell schlägt eine Reihe von Token vor, und das vollständige Zielmodell überprüft diese Reihe in einem einzigen Durchlauf und behält alle Token bei, denen es zustimmt. DSpark verbessert frühere Ansätze durch zwei Ergänzungen. Erstens wird kein separates Entwurfsmodell von Grund auf trainiert, sondern ein leichtgewichtiger spekulativer Kopf direkt auf den bestehenden Modell-Checkpoint aufgepfropft – was bedeutet, dass die Ausgabequalität des zugrunde liegenden Modells unverändert bleibt. Zweitens weist ein Konfidenzbewertungssystem jedem entworfenen Token eine Wahrscheinlichkeit zu, die Überprüfung zu überstehen, während ein hardwarebewusster Planer anpasst, wie viele Token basierend auf der aktuellen GPU-Auslastung überprüft werden. Bei geringem Datenverkehr überprüft das System längere Vermutungsreihen; bei hohem Datenverkehr verwirft es Token mit geringer Konfidenz, bevor sie Rechenleistung verbrauchen.digg+3
In der Online-Produktionsumgebung von DeepSeek, die echten Nutzerverkehr verarbeitet, lieferte DSpark eine 60 bis 85 Prozent schnellere Generierung für einzelne Nutzer bei V4-Flash und 57 bis 78 Prozent bei V4-Pro im Vergleich zur vorherigen MTP-1-Basislinie von DeepSeek. Unter bestimmten Latenzbedingungen erreichten die Durchsatzgewinne bis zu 661 Prozent bei Flash und 406 Prozent bei Pro. Offline-Benchmarks zeigten, dass die Länge der akzeptierten Token um 26 bis 31 Prozent gegenüber Eagle3 und um 16 bis 18 Prozent gegenüber DFlash stieg.youtube+2
Das Framework ist modellunabhängig. DeepSeek demonstrierte die Kompatibilität mit den Checkpoints von Alibabas Qwen3 und Googles Alphabet Inc. Gemma. Neben DSpark veröffentlichte das Team DeepSpec als Open-Source, eine Full-Stack-Codebasis zum Trainieren und Evaluieren von Entwurfsmodellen für spekulative Dekodierung, alles unter einer MIT-Lizenz auf GitHub.marktechpost+3
Die Veröffentlichung erfolgt, während sich DeepSeek darauf vorbereitet, sein V4-Modell offiziell Mitte Juli mit einem neuen API-Preismechanismus für Spitzen- und Nebenzeiten einzuführen. DSpark ist bereits vollständig in den Online-Diensten von DeepSeek implementiert und reduziert die verschwendete GPU-Rechenleistung durch ungültige Überprüfungen, während die Ausgabequalität identisch mit dem Basismodell bleibt. DeepSeek-Gründer Liang Wenfeng war Mitautor des begleitenden Papiers mit dem Titel „DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation“.pandaily+1