VOL.26 · #3 · 2026 年 5 月 2 日 · 周六

5 月 2 日大模型邮报

本期 6 篇要闻 · 约 24 分钟阅读 · 覆盖 1 类

2026

5月2日周六

共 6 篇

Anthropic 基于 3.8 万段对话分析发现关系求助场景中模型阿谀倾向率达 25%。团队通过合成数据与前填充压力测试技术，使 Claude Opus 4.7 在该场景阿谀率降至前代一半，改进效果同步泛化至健康、财务等领域。

模型 / llmposts.com 阅读原文

OpenAI 于 2026 年 5 月 1 日发布 Codex 0.128.0 版本，该终端开发工具新增持久化目标工作流与插件市场支持，重构内置权限档案并弃用全自动参数，同步优化多智能体协作与长周期任务管理能力。

模型 / llmposts.com 阅读原文

Artificial Analysis 评测显示，xAI Grok 4.3 在 Intelligence Index 上取得 53 分，超越 Muse Spark 与 Claude Sonnet 4.6，输入与输出价格均下调超 40%，GDPval-AA 基准测试较前代大幅提升 321 分。

模型 / llmposts.com 阅读原文

CAISI 第三方评测显示，DeepSeek V4 Pro 综合能力约落后美国前沿模型 8 个月，同等能力下推理成本更低，代码与数学基准表现领先。

模型 / llmposts.com 阅读原文

阿里 Qwen 团队开源 Qwen-Scope 可解释性工具，覆盖 Qwen3 与 Qwen3.5 系列共 7 个模型，提供 14 组稀疏自编码器权重，可用于推理控制、数据合成、训练调优与评估分析。

模型 / llmposts.com 阅读原文

OpenAI Codex 应用上线 Codex Pets 功能：可选动画伙伴以悬浮覆盖层形式陪伴你工作，实时显示 Codex 任务的 running、waiting、ready 状态。本文详解三种切换方式与通过 hatch-pet skill 创建自定义宠物的完整流程。

模型 / llmposts.com 阅读原文