LLM·DAILY
RSS
分类

研究前沿

共 5 篇 · 覆盖 5 天
2026 · 5 天前

510 周日

1
2026 · 6 天前

59 周六

1
2026

58 周五

1
2026

57 周四

1
01

Scale Labs 发布 Refactoring Leaderboard

Scale Labs 发布 Refactoring Leaderboard,评测 AI coding agents 的复杂重构能力。SWE Atlas Refactoring 任务代码改动行数约为 SWE-Bench Pro 的 2 倍,文件编辑次数约为 1.7 倍。

阅读原文
2026

54 周一

1