9月21日,明略科技宣布旗下自主研发的 GUI 大模型 Mano 在业内公认的两大挑战性基准测试——OSWorld与 Mind2Web 中,双双取得了创纪录的 SOTA 成绩。这一成绩不仅让 Mano 成为通用 GUI 智能体的新范式,也意味着自动化边界又被推远了一大步。
刷新两大榜单纪录
在OSWorld-Verified 的 Foundation E2E GUI & Specialized Model 测试中,Mano 单次运行成功率达到 40.1%,整体表现均值为 41.6 ± 0.7%,超过 qwen、GUI-Owl、opencua 等全球同类模型。
另一项Mind2Web 基准覆盖 137 个网站、2350 余项真实任务,涉及订机票、填写表格、在线购物等复杂操作,对模型的元素精度(Element Accuracy)、步骤成功率(Step SR)提出了极高要求。Mano 在这一测试中同样表现突出,尤其在面对不断变化的 DOM 结构和多样化场景时,展现出卓越的适应能力。
三大核心技术
1. 在线强化学习Mano 在 GUI 交互领域首次提出了在线强化学习的训练范式,并推出训练数据自动采集的「探索器」,这两大核心创新为其实现前所未有的图形界面交互性能,奠定了坚实基础。
2. 自动化训练数据采集明略科技搭建虚拟环境集群,利用插件和 DOM 提取器自动生成交互轨迹、元素信息和语义标注,大幅提高了训练数据的多样性和真实性。
3. 三阶段训练流程Mano 采用监督微调(SFT)、离线强化学习(Offline RL)、在线强化学习(Online RL)的三阶段体系,将推理能力和任务适应性有机结合,解决了传统模型难以应对动态场景的问题。
引领 GUI 智能体新范式
随着生成式 AI 向“能动性”迈进,GUI 智能体正在成为人机交互的新方向。Mano 在“双榜第一”的成绩背后,是明略科技对智能体长期深耕的结果:从数据采集到训练范式,从实验室场景到真实复杂环境,Mano 都展现出可扩展性和稳定性。
明略科技表示,将继续在数据采集、训练推理整合、验证码处理等领域探索,推动 Mano 在真实应用和端侧部署中的进一步优化,为企业的智能化转型提供强有力的支持。
正如本次成果所示,中国企业完全有能力在全球前沿 AI 领域开辟出属于自己的技术高地。
新闻来源 (不包括新闻图片): 有连云