找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 95|回复: 1

[【其它】] 小红书发布 SWE-Bench Mobile

[复制链接]
发表于 2026-2-15 12:30:46 来自手机 | 显示全部楼层 |阅读模式
大型语言模型(LLMs)的迅速发展催生了新一代自主编码智能体,它们能够理解需求、浏览代码库,并在最少的人工干预下实现功能。以 Cursor、Claude Code 和 Codex 为代表的 AI 编程工具在现有基准测试中已经取得了令人瞩目的成果。

然而,现有的评测基准(如 SWE-Bench 等)大多局限于孤立的算法问题或简单的错误修复。而真实的 App 开发并不是在一个真空环境中解数学题。
它们的核心实现往往涉及以下几个要点:
对多模态产品需求(PRD 文字说明 + 素材资源等)的真正理解;
对来自 Figma 等工具的视觉设计转化为布局和交互的决策实现;
对庞大代码库的上下文理解,包括架构模块设计、功能实现以及私有库等;
对移动操作系统及其对应技术栈的知识储备。

针对这一行业空白,小红书联合多伦多大学、伊利诺伊大学香槟分校 U Lab、加州大学伯克利分校 Sky Computing Lab 等科研机构,正式发布了 SWE-Bench Mobile。与模型厂商发布会上节节攀升的高分评测不同:在面对真实的企业级大型 App 开发任务时,目前能够达到的任务成功率(Task Success Rate)也仅为 12%。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2026-2-19 21:58:25 来自手机 | 显示全部楼层
不得了啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-3-27 19:00 , Processed in 0.101243 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表