Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

reuters+1scmpchannelnewsasia+1Kinijos maisto pristatymo milžinė „Meituan“ antradienį išleido ir atvėrė „LongCat-2.0“ – 1,6 trilijono parametrų didelį kalbos modelį, apmokytą tik naudojant šalies viduje pagamintus lustus. Bendrovė teigia, kad tai pirmoji pasaulyje trilijono parametrų DI sistema, sukurta ir veikianti 50 000 kiniškų procesorių klasteryje.money.usnews+1
Šis „Mixture-of-Experts“ modelis, išleistas pagal laisvą MIT licenciją „GitHub“ ir „Hugging Face“ platformose, pasižymi vieno milijono žetonų konteksto langu ir yra skirtas autonominiam programavimui, programinės įrangos inžinerijai bei DI agentų užduotims. „Meituan“ teigimu, „LongCat-2.0“ našumas yra palyginamas su „Google“ („Alphabet Inc.“ ) „Gemini 3.1 Pro“ ir pagrindiniuose vertinimo testuose prilygo arba pranoko kelis pirmaujančius patentuotus modelius, įskaitant „OpenAI“ „GPT-5.5“ ir „Anthropic“ „Claude Opus“.channelnewsasia+2
Šis pristatymas žymi reikšmingą pažangą Kinijos pastangose plėtoti pažangųjį DI nepasikliaujant „Nvidia“ technine įranga. Nors balandį pristatyta „DeepSeek“ V4-pro vietinius lustus naudojo tik išvadoms daryti – procesui, kai vykdomas apmokytas modelis – „LongCat-2.0“ naudojo kiniškus ASIC lustus tiek išankstiniam mokymui, tiek išvadoms, praneša „South China Morning Post“.scmp
„LongCat-2.0“ įrodė, kad dabar turime galimybę mokyti didelio masto modelius vietiniuose skaičiavimo klasteriuose“, – sakoma „Meituan“ pranešime, neįvardijant lustų gamintojo.wtaq+1
„Meituan“ DI tyrimų komanda vietinių lustų naudojimą pradėjo tyrinėti 2023 m. Modelis anksčiau buvo žinomas anoniminiu „Owl Alpha“ pavadinimu ir, prieš atskleidžiant jo tapatybę, buvo užėmęs pirmąsias vietas „OpenRouter“ kūrėjų reitinguose.techxplore+2
Turėdamas 1,6 trilijono parametrų, „LongCat-2.0“ prilygsta naujausiam „DeepSeek“ flagmanui V4-pro. Šis mastas yra didelis šuolis nuo ankstesnio bendrovės modelio „LongCat-Flash“, turėjusio 560 milijardų parametrų.medium.datadriveninvestor+1
Modelis buvo sukurtas naudojant tai, ką „Meituan“ apibūdino kaip „didelio masto dešimčių tūkstančių DI ASIC supermazgų klasterius“, demonstruojant gebėjimą „vykdyti pažangaus masto mokymą alternatyviose techninės įrangos platformose“. Atvirojo kodo išleidimas pagal MIT licenciją daro jį vienu komerciškai lanksčiausių didelio masto DI modelių, leidžiančiu kūrėjams jį modifikuoti ir platinti be apribojimų.scmp+2