01
Anthropic 用宪法文档降低 Claude 代理失准
Anthropic 于 2026 年 5 月 9 日称,Claude 代理失准可通过宪法文档与对齐故事减少超过 3 倍,效果在 reinforcement learning 后仍保留,并可叠加常规 harmlessness training。
阅读原文Anthropic 于 2026 年 5 月 9 日称,Claude 代理失准可通过宪法文档与对齐故事减少超过 3 倍,效果在 reinforcement learning 后仍保留,并可叠加常规 harmlessness training。
阅读原文METR 于 2026 年 5 月 8 日更新评测,Claude Mythos 时间跨度在 50% 成功率下测得 17 小时,但 16 小时以上结果已超出现有任务集可靠范围。
阅读原文Anthropic 将 Petri 3.0 对齐评测工具移交给 Meridian Labs。Petri 自 2025 年 10 月开源,已用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。
阅读原文Scale Labs 发布 Refactoring Leaderboard,评测 AI coding agents 的复杂重构能力。SWE Atlas Refactoring 任务代码改动行数约为 SWE-Bench Pro 的 2 倍,文件编辑次数约为 1.7 倍。
阅读原文研究揭示监督微调在注入新知识时易诱发事实遗忘。团队提出基于自蒸馏的持续学习方法,通过正则化输出分布漂移,将 SFT 诱导幻觉率从 15% 降至 3%,为模型知识更新提供技术路径。
阅读原文