Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

news.futunnmarktechpost+1digg+1Des chercheurs de l'Université de Pékin et de DeepSeek ont publié DSpark le 27 juin, un framework de décodage spéculatif open source qui accélère l'inférence des grands modèles de langage de 60 à 85 % par utilisateur dans les systèmes de production en direct, marquant la première avancée technique majeure du laboratoire d'IA chinois depuis sa levée de fonds de 7 milliards de dollars.marktechpost+2
Le décodage spéculatif divise la génération de texte en deux rôles : un petit modèle de brouillon rapide propose un lot de jetons, et le modèle cible complet vérifie ce lot en une seule passe, conservant tous les jetons avec lesquels il est d'accord. DSpark améliore les approches précédentes avec deux ajouts. Premièrement, au lieu d'entraîner un modèle de brouillon séparé à partir de zéro, il greffe une tête spéculative légère directement sur le point de contrôle du modèle existant, ce qui signifie que la qualité de sortie du modèle sous-jacent reste inchangée. Deuxièmement, un système de score de confiance donne à chaque jeton rédigé une probabilité de survivre à la vérification, tandis qu'un planificateur conscient du matériel ajuste le nombre de jetons vérifiés en fonction de la charge actuelle du GPU. Lorsque le trafic est léger, le système vérifie de plus longues séries de suppositions ; lorsque le trafic est intense, il rejette les jetons à faible confiance avant qu'ils ne consomment des ressources de calcul.digg+3
Dans l'environnement de production en ligne de DeepSeek gérant le trafic réel des utilisateurs, DSpark a permis une génération par utilisateur 60 à 85 % plus rapide sur V4-Flash et 57 à 78 % sur V4-Pro par rapport à la référence MTP-1 précédente de DeepSeek. Dans certaines conditions de latence, les gains de débit ont atteint jusqu'à 661 % sur Flash et 406 % sur Pro. Les benchmarks hors ligne ont montré que la longueur des jetons acceptés augmentait de 26 à 31 % par rapport à Eagle3 et de 16 à 18 % par rapport à DFlash.youtube+2
Le framework est agnostique au modèle. DeepSeek a démontré sa compatibilité avec les points de contrôle Qwen3 d'Alibaba et Gemma d'Alphabet Inc. de Google. Parallèlement à DSpark, l'équipe a mis en open source DeepSpec, une base de code complète pour l'entraînement et l'évaluation des rédacteurs de décodage spéculatif, le tout sous licence MIT sur GitHub.marktechpost+3
Le lancement intervient alors que DeepSeek se prépare à lancer officiellement son modèle V4 mi-juillet avec un nouveau mécanisme de tarification API pour les périodes de pointe et hors pointe. DSpark est déjà entièrement déployé sur les services en ligne de DeepSeek, réduisant le gaspillage de calcul GPU dû aux vérifications non valides tout en maintenant une qualité de sortie identique au modèle de base. Le fondateur de DeepSeek, Liang Wenfeng, a co-écrit l'article d'accompagnement, intitulé "DSpark : Décodage spéculatif programmé par la confiance avec génération semi-autorégressive".pandaily+1