01
Grok 4.3 benchmark 登顶法律金融测试 跑分数据公布
xAI 近日公布 Grok 4.3 benchmark 测试跑分数据,该模型在 CaseLaw v2 与 CorpFin v2 榜单均位列第一,准确率分别达到 79.31% 与 68.53%,在长文本法律判读与金融协议解析任务中展现相对优势。
阅读原文xAI 近日公布 Grok 4.3 benchmark 测试跑分数据,该模型在 CaseLaw v2 与 CorpFin v2 榜单均位列第一,准确率分别达到 79.31% 与 68.53%,在长文本法律判读与金融协议解析任务中展现相对优势。
阅读原文研究揭示监督微调在注入新知识时易诱发事实遗忘。团队提出基于自蒸馏的持续学习方法,通过正则化输出分布漂移,将 SFT 诱导幻觉率从 15% 降至 3%,为模型知识更新提供技术路径。
阅读原文