分类

研究前沿

共 5 篇 · 覆盖 5 天

2026 · 5 天前

5 月 10 日周日

共 1 篇

Anthropic 于 2026 年 5 月 9 日称，Claude 代理失准可通过宪法文档与对齐故事减少超过 3 倍，效果在 reinforcement learning 后仍保留，并可叠加常规 harmlessness training。

2026 · 6 天前

共 1 篇

METR 于 2026 年 5 月 8 日更新评测，Claude Mythos 时间跨度在 50% 成功率下测得 17 小时，但 16 小时以上结果已超出现有任务集可靠范围。

2026

共 1 篇

Anthropic 将 Petri 3.0 对齐评测工具移交给 Meridian Labs。Petri 自 2025 年 10 月开源，已用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。

2026

共 1 篇

Scale Labs 发布 Refactoring Leaderboard，评测 AI coding agents 的复杂重构能力。SWE Atlas Refactoring 任务代码改动行数约为 SWE-Bench Pro 的 2 倍，文件编辑次数约为 1.7 倍。

2026

共 1 篇

研究揭示监督微调在注入新知识时易诱发事实遗忘。团队提出基于自蒸馏的持续学习方法，通过正则化输出分布漂移，将 SFT 诱导幻觉率从 15% 降至 3%，为模型知识更新提供技术路径。