01
Scale Labs 发布 Refactoring Leaderboard
Scale Labs 发布 Refactoring Leaderboard,评测 AI coding agents 的复杂重构能力。SWE Atlas Refactoring 任务代码改动行数约为 SWE-Bench Pro 的 2 倍,文件编辑次数约为 1.7 倍。
阅读原文Scale Labs 发布 Refactoring Leaderboard,评测 AI coding agents 的复杂重构能力。SWE Atlas Refactoring 任务代码改动行数约为 SWE-Bench Pro 的 2 倍,文件编辑次数约为 1.7 倍。
阅读原文Qwen 3.6 MTP 推理加速已进入 llama.cpp PR 22673,作者在 M2 Max 96 GB 上报告 2.5 倍提速与 28 tok/s,并称 48 GB 级硬件可支持 262144 tokens 上下文。
阅读原文Anthropic 推出 Claude Managed Agents 新功能更新,Dreaming 机制处于研究预览阶段,Outcomes 自校正测试文档生成成功率提升超 8%,支持多智能体并行编排。
阅读原文据 Aakash Gupta 披露,OpenAI 董事会风波期间,Sam Altman 在 2023 年 11 月被解雇当晚曾提出 3 个选项,包括让 Microsoft 收购 OpenAI。
阅读原文