<汇港通讯> 美团(03690)发布并全面开源原生多模态大模型LongCat-Next,以及其核心组件离散原生分辨率视觉分词器(dNaViT)。
该模型首次实现将图像、语音与文本统一映射为同源离散Token。摒弃传统以语言为中心的拼凑式架构,全程采用「下一个Token预测」(Next Token Prediction,NTP)范式。旨在令视觉与语音成为人工智能(AI)的原生输入模态,提升多模态理解与生成能力。模型面向全球开发者开源,适用於当地语系化多模态应用开发。
美团早前发布并开源LongCat-Flash-Thinking-2601,为LongCat-Flash-Thinking模型升级版,在智能体搜索(Agentic Search)、智能体工具调用(Agentic Tool Use)、工具交互推理(TIR)等核心评测基准上,均达到开源模型SOTA水平。 (ST)
新闻来源 (不包括新闻图片): 汇港资讯