VOL.26 · #9 · 2026 年 5 月 8 日 · 周五

5 月 8 日大模型邮报

本期 10 篇要闻 · 约 40 分钟阅读 · 覆盖 4 类

2026

5月8日周五

共 10 篇

蚂蚁百灵公布 Ring-2.6-1T benchmark：high 档在 PinchBench 得分 87.60，xhigh 档在 AIME 26 得分 95.83，OpenRouter 免费试用至 5 月 15 日。

模型 / llmposts.com 阅读原文

ZAYA1-8B 是 Zyphra 发布的 AMD 训练 MoE 模型，活跃参数少于 10 亿，在 Markovian RSA 下 HMMT'25 达到 89.6 分，高于 Claude 4.5 Sonnet 的 88.3 分。

模型 / llmposts.com 阅读原文

OpenAI 推出 GPT-5.5-Cyber 有限预览，面向关键基础设施防御者。CyberGym 中其得分为 81.9%，个人用户自 2026 年 6 月 1 日起需启用更强账户安全。

模型 / llmposts.com 阅读原文

OpenAI 在 Realtime API 推出 GPT-Realtime-2 语音模型等 3 款音频模型，上下文窗口升至 128K，Big Bench Audio 准确率达 96.6%，实时翻译支持 70+ 输入语言。

模型 / llmposts.com 阅读原文

Anthropic 将 Petri 3.0 对齐评测工具移交给 Meridian Labs。Petri 自 2025 年 10 月开源，已用于 Claude Sonnet 4.5 以来每个 Claude 模型的对齐评估。

研究 / llmposts.com 阅读原文

OpenAI 微调 API 将在 2027 年 1 月 6 日后停止创建新训练任务。现有微调模型仍可通过 Chat Completions 和 Responses API 推理，直到对应底座模型退役。

工程 / llmposts.com 阅读原文

Claude 接入 Microsoft 365 已覆盖 Excel、PowerPoint、Word 和 Outlook，其中 3 个应用正式可用，Outlook 面向所有付费计划进入公开 beta，并支持 OpenTelemetry 审计。

工程 / llmposts.com 阅读原文

OpenAI 推出 Codex Chrome 扩展，支持 macOS 与 Windows，在后台跨 Chrome 标签页并行执行任务。功能已开放给除 EU 与 UK 以外地区的 Codex 应用用户。

工程 / llmposts.com 阅读原文

xAI Anthropic 算力消化差异被曝：xAI 近期模型 FLOPs 利用率约 11%，Anthropic 年化收入 run-rate 超 300 亿美元，企业大客户不到 2 个月翻倍至 1000 家以上。

行业 / llmposts.com 阅读原文

据 The Information 报道，DeepSeek 融资目标最高达 500 亿元人民币，约 73.5 亿美元；V4.1 更新版据称或在 2026 年 6 月推出，但尚未获官方确认。

行业 / llmposts.com 阅读原文