小红书发布 SWE-Bench Mobile

mynccs · 发表于 2026-2-15 12:30:46

大型语言模型（LLMs）的迅速发展催生了新一代自主编码智能体，它们能够理解需求、浏览代码库，并在最少的人工干预下实现功能。以 Cursor、Claude Code 和 Codex 为代表的 AI 编程工具在现有基准测试中已经取得了令人瞩目的成果。

然而，现有的评测基准（如 SWE-Bench 等）大多局限于孤立的算法问题或简单的错误修复。而真实的 App 开发并不是在一个真空环境中解数学题。
它们的核心实现往往涉及以下几个要点：
对多模态产品需求（PRD 文字说明 + 素材资源等）的真正理解；
对来自 Figma 等工具的视觉设计转化为布局和交互的决策实现；
对庞大代码库的上下文理解，包括架构模块设计、功能实现以及私有库等；
对移动操作系统及其对应技术栈的知识储备。

针对这一行业空白，小红书联合多伦多大学、伊利诺伊大学香槟分校 U Lab、加州大学伯克利分校 Sky Computing Lab 等科研机构，正式发布了 SWE-Bench Mobile。与模型厂商发布会上节节攀升的高分评测不同：在面对真实的企业级大型 App 开发任务时，目前能够达到的任务成功率（Task Success Rate）也仅为 12%。

aidubook · 发表于 2026-2-19 21:58:25

不得了啊

		自动登录	找回密码
密码			注册

[【其它】] 小红书发布 SWE-Bench Mobile

评分

浏览过的版块