Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

reuters+1scmpchannelnewsasia+1El gigante chino de entrega de comida Meituan lanzó y abrió el código de LongCat-2.0 el martes, un modelo de lenguaje extenso de 1,6 billones de parámetros entrenado completamente con chips producidos a nivel nacional; lo que la compañía afirma es el primer sistema de IA de un billón de parámetros del mundo construido y ejecutado en un clúster de 50.000 procesadores de fabricación china.money.usnews+1
El modelo Mixture-of-Experts, lanzado bajo la permisiva licencia MIT en GitHub y Hugging Face, cuenta con una ventana de contexto de un millón de tokens y está diseñado para tareas de codificación autónoma, ingeniería de software y agentes de IA. Meituan dijo que el rendimiento de LongCat-2.0 es comparable al de Gemini 3.1 Pro de Alphabet Inc. de Google, e igualó o superó a varios modelos propietarios líderes, incluidos GPT-5.5 de OpenAI y Claude Opus de Anthropic, en puntos de referencia clave.channelnewsasia+2
El lanzamiento marca un avance notable en los esfuerzos de China por desarrollar IA de frontera sin depender del hardware de Nvidia . Mientras que el V4-pro de DeepSeek, lanzado en abril, utilizó chips nacionales solo para la inferencia —el proceso de ejecutar un modelo entrenado—, LongCat-2.0 utilizó chips ASIC chinos tanto para el preentrenamiento como para la inferencia, según el South China Morning Post.scmp
"LongCat-2.0 ha demostrado que ahora tenemos la capacidad de entrenar modelos a gran escala en clústeres informáticos nacionales", dijo Meituan en un comunicado, sin nombrar al fabricante de chips.wtaq+1
El equipo de investigación de IA de Meituan comenzó a explorar el uso de chips nacionales en 2023. El modelo se conocía anteriormente de forma anónima como "Owl Alpha" y había encabezado las clasificaciones de desarrolladores de OpenRouter antes de que se revelara su identidad.techxplore+2
Con 1,6 billones de parámetros, LongCat-2.0 pone a Meituan a la par con el último modelo insignia V4-pro de DeepSeek. La escala representa un salto desde el anterior LongCat-Flash de la compañía, que tenía 560 mil millones de parámetros.medium.datadriveninvestor+1
El modelo fue construido sobre lo que Meituan describió como "clústeres a gran escala de decenas de miles de superpods ASIC de IA", lo que demuestra su capacidad para "realizar entrenamientos a escala de frontera en plataformas de hardware alternativas". El lanzamiento de código abierto bajo una licencia MIT lo convierte en uno de los modelos de IA a gran escala comercialmente más flexibles disponibles, permitiendo a los desarrolladores modificarlo y redistribuirlo sin restricciones.scmp+2