DeepSeek vise un lancement de la V4 mi-juillet avec une nouvelle tarification API

June 29, 2026

DeepSeek a annoncé dimanche que son modèle V4 sera officiellement lancé mi-juillet avec une tarification API basée sur les pics et les creux, doublant les tarifs pendant les heures de forte affluence.news.futunn
L'équipe a également mis en open source DSpark, un framework de décodage spéculatif co-développé avec l'Université de Pékin qui accélère la génération par utilisateur jusqu'à 85 %.marktechpost+1
DSpark est déjà déployé sur les systèmes de production de DeepSeek et fonctionne avec des modèles tiers, notamment Qwen d'Alibaba et Gemma de Google.digg+1

Des chercheurs de l'Université de Pékin et de DeepSeek ont publié DSpark le 27 juin, un framework de décodage spéculatif open source qui accélère l'inférence des grands modèles de langage de 60 à 85 % par utilisateur dans les systèmes de production en direct, marquant la première avancée technique majeure du laboratoire d'IA chinois depuis sa levée de fonds de 7 milliards de dollars.marktechpost+2

Comment fonctionne DSpark

Le décodage spéculatif divise la génération de texte en deux rôles : un petit modèle de brouillon rapide propose un lot de jetons, et le modèle cible complet vérifie ce lot en une seule passe, conservant tous les jetons avec lesquels il est d'accord. DSpark améliore les approches précédentes avec deux ajouts. Premièrement, au lieu d'entraîner un modèle de brouillon séparé à partir de zéro, il greffe une tête spéculative légère directement sur le point de contrôle du modèle existant, ce qui signifie que la qualité de sortie du modèle sous-jacent reste inchangée. Deuxièmement, un système de score de confiance donne à chaque jeton rédigé une probabilité de survivre à la vérification, tandis qu'un planificateur conscient du matériel ajuste le nombre de jetons vérifiés en fonction de la charge actuelle du GPU. Lorsque le trafic est léger, le système vérifie de plus longues séries de suppositions ; lorsque le trafic est intense, il rejette les jetons à faible confiance avant qu'ils ne consomment des ressources de calcul.digg+3

Performances et compatibilité

Dans l'environnement de production en ligne de DeepSeek gérant le trafic réel des utilisateurs, DSpark a permis une génération par utilisateur 60 à 85 % plus rapide sur V4-Flash et 57 à 78 % sur V4-Pro par rapport à la référence MTP-1 précédente de DeepSeek. Dans certaines conditions de latence, les gains de débit ont atteint jusqu'à 661 % sur Flash et 406 % sur Pro. Les benchmarks hors ligne ont montré que la longueur des jetons acceptés augmentait de 26 à 31 % par rapport à Eagle3 et de 16 à 18 % par rapport à DFlash.youtube+2

Le framework est agnostique au modèle. DeepSeek a démontré sa compatibilité avec les points de contrôle Qwen3 d'Alibaba et Gemma d'Alphabet Inc. de Google. Parallèlement à DSpark, l'équipe a mis en open source DeepSpec, une base de code complète pour l'entraînement et l'évaluation des rédacteurs de décodage spéculatif, le tout sous licence MIT sur GitHub.marktechpost+3

Contexte plus large

Le lancement intervient alors que DeepSeek se prépare à lancer officiellement son modèle V4 mi-juillet avec un nouveau mécanisme de tarification API pour les périodes de pointe et hors pointe. DSpark est déjà entièrement déployé sur les services en ligne de DeepSeek, réduisant le gaspillage de calcul GPU dû aux vérifications non valides tout en maintenant une qualité de sortie identique au modèle de base. Le fondateur de DeepSeek, Liang Wenfeng, a co-écrit l'article d'accompagnement, intitulé "DSpark : Décodage spéculatif programmé par la confiance avec génération semi-autorégressive".pandaily+1

Sources (14)

1 DeepSeek V4 is scheduled for mid-July, with concurrent ... news.futunn.com
2 DeepSeek Releases DSpark, a Speculative Decoding Framework ... www.marktechpost.com
3 DeepSeek DSpark Boosts Generation Speed by 85% in First Post ... pandaily.com
4 DeepSeek-AI and Peking University open-source DSpark, using ... digg.com
5 Open Source Speculative Decoding for 85% Faster Inference www.youtube.com
6 DSpark - DeepSeek Just Made Inference 85% Faster - YouTube www.youtube.com
7 DeepSpec: a full-stack codebase for training and ... - GitHub github.com
8 DeepSeek's DSpark Brings Speculative Decoding Back Into the ... dev.to
9 Open Source Inference Frameworks - Aussie AI www.aussieai.com
10 hemingkx/SpecDec: Codes for our paper "Speculative Decoding github.com
11 Best Inference Framework & Open Models for Orchestrator-Workers ... forums.developer.nvidia.com
12 mscheong01/speculative_decoding.c: minimal C implementation of ... github.com
13 DSpark: Speculative decoding accelerates LLM inference [pdf] www.reddit.com
14 DeepSpec/DSpark_paper.pdf at main · deepseek-ai ... - GitHub github.com

Breaking News

Popular News

DeepSeek vise un lancement de la V4 mi-juillet avec une nouvelle tarification API

Comment fonctionne DSpark

Performances et compatibilité

Contexte plus large

Laisser un commentaireAnnuler la réponse

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Comment fonctionne DSpark

Performances et compatibilité

Contexte plus large

Publications similaires

Le JWST repère la galaxie spirale barrée la plus lointaine jamais observée

Huawei publie des données de production de masse soutenant la loi d’échelle Tau

Micron lance les travaux d’une extension de 9 milliards de dollars à Hiroshima pour des puces mémoire destinées à l’IA

Laisser un commentaireAnnuler la réponse

Stay informed and not overwhelmed, subscribe now!