VOL.26 · #5 · 2026 年 5 月 4 日 · 周一

5 月 4 日大模型邮报

本期 2 篇要闻 · 约 8 分钟阅读 · 覆盖 2 类

2026

5月4日周一

共 2 篇

xAI 近日公布 Grok 4.3 benchmark 测试跑分数据，该模型在 CaseLaw v2 与 CorpFin v2 榜单均位列第一，准确率分别达到 79.31% 与 68.53%，在长文本法律判读与金融协议解析任务中展现相对优势。

模型 / llmposts.com 阅读原文

研究揭示监督微调在注入新知识时易诱发事实遗忘。团队提出基于自蒸馏的持续学习方法，通过正则化输出分布漂移，将 SFT 诱导幻觉率从 15% 降至 3%，为模型知识更新提供技术路径。

研究 / llmposts.com 阅读原文