Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

news.futunnmarktechpost+1digg+1Ερευνητές από το Πανεπιστήμιο του Πεκίνου και την DeepSeek κυκλοφόρησαν στις 27 Ιουνίου το DSpark, ένα πλαίσιο εικαστικής αποκωδικοποίησης ανοιχτού κώδικα που επιταχύνει τη συναγωγή μεγάλων γλωσσικών μοντέλων κατά 60 έως 85 τοις εκατό ανά χρήστη σε ζωντανά συστήματα παραγωγής, σηματοδοτώντας την πρώτη σημαντική τεχνική κυκλοφορία του κινεζικού εργαστηρίου τεχνητής νοημοσύνης μετά τον γύρο χρηματοδότησης ύψους 7 δισεκατομμυρίων δολαρίων.marktechpost+2
Η εικαστική αποκωδικοποίηση χωρίζει τη δημιουργία κειμένου σε δύο ρόλους: ένα μικρό, γρήγορο μοντέλο προσχεδίου προτείνει μια παρτίδα διακριτικών (tokens) και το πλήρες μοντέλο-στόχος επαληθεύει αυτή την παρτίδα σε ένα μόνο πέρασμα, διατηρώντας όλα τα διακριτικά με τα οποία συμφωνεί. Το DSpark βελτιώνει τις προηγούμενες προσεγγίσεις με δύο προσθήκες. Πρώτον, αντί για την εκπαίδευση ενός ξεχωριστού μοντέλου προσχεδίου από το μηδέν, ενσωματώνει μια ελαφριά κεφαλή εικαστικής αποκωδικοποίησης απευθείας στο υπάρχον σημείο ελέγχου (checkpoint) του μοντέλου — πράγμα που σημαίνει ότι η ποιότητα εξόδου του υποκείμενου μοντέλου παραμένει αμετάβλητη. Δεύτερον, ένα σύστημα βαθμολόγησης εμπιστοσύνης δίνει σε κάθε προτεινόμενο διακριτικό μια πιθανότητα επιβίωσης της επαλήθευσης, ενώ ένας προγραμματιστής με επίγνωση του υλικού προσαρμόζει πόσα διακριτικά ελέγχονται με βάση το τρέχον φορτίο της GPU. Όταν η κίνηση είναι χαμηλή, το σύστημα επαληθεύει μεγαλύτερες σειρές εικασιών· όταν η κίνηση είναι έντονη, απορρίπτει τα διακριτικά χαμηλής εμπιστοσύνης πριν καταναλώσουν υπολογιστική ισχύ.digg+3
Στο διαδικτυακό περιβάλλον παραγωγής της DeepSeek που διαχειρίζεται πραγματική κίνηση χρηστών, το DSpark απέδωσε 60 έως 85 τοις εκατό ταχύτερη δημιουργία για έναν χρήστη στο V4-Flash και 57 έως 78 τοις εκατό στο V4-Pro σε σύγκριση με την προηγούμενη βάση αναφοράς MTP-1 της DeepSeek. Υπό ορισμένες συνθήκες καθυστέρησης, τα κέρδη στη διακίνηση έφτασαν έως και το 661 τοις εκατό στο Flash και το 406 τοις εκατό στο Pro. Τα benchmarks εκτός σύνδεσης έδειξαν ότι το μήκος των αποδεκτών διακριτικών αυξήθηκε κατά 26 έως 31 τοις εκατό σε σχέση με το Eagle3 και 16 έως 18 τοις εκατό σε σχέση με το DFlash.youtube+2
Το πλαίσιο είναι ανεξάρτητο από το μοντέλο. Η DeepSeek απέδειξε τη συμβατότητα με τα σημεία ελέγχου Qwen3 της Alibaba και Gemma της Alphabet Inc. . Παράλληλα με το DSpark, η ομάδα διέθεσε ως ανοιχτού κώδικα το DeepSpec, μια βάση κώδικα πλήρους στοίβας για την εκπαίδευση και την αξιολόγηση συντακτών εικαστικής αποκωδικοποίησης, όλα υπό άδεια MIT στο GitHub.marktechpost+3
Η κυκλοφορία έρχεται καθώς η DeepSeek προετοιμάζεται να λανσάρει επίσημα το μοντέλο V4 στα μέσα Ιουλίου με έναν νέο μηχανισμό τιμολόγησης API αιχμής και εκτός αιχμής. Το DSpark είναι ήδη πλήρως αναπτυγμένο στις διαδικτυακές υπηρεσίες της DeepSeek, μειώνοντας τη σπατάλη υπολογιστικής ισχύος GPU από άκυρες επαληθεύσεις, διατηρώντας παράλληλα την ποιότητα εξόδου πανομοιότυπη με το βασικό μοντέλο. Ο ιδρυτής της DeepSeek, Liang Wenfeng, συνέγραψε τη συνοδευτική εργασία με τίτλο "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation."pandaily+1