─── 分类 / Category

模型动态 Models

共 187 篇 · 覆盖 55 天

2026

7月10日周五

共 1 篇

Anthropic 发布 Claude 反思功能, 通过 4D 框架优化 AI 协作模式

Anthropic 发布 Claude 反思功能 Beta 版,支持回顾 1 到 12 个月的使用模式,并基于 4D AI 流畅度框架提供协作建议,旨在优化用户与 AI 的交互习惯。

模型 / llmposts.com 阅读原文

2026 · 今天

7月9日周四

共 2 篇

SpaceXAI 发布 Grok 4.5 模型, 在自动化评测集夺冠且成本极低

SpaceXAI 发布 Grok 4.5 模型,在 AutomationBench-AA 评测中以 51% 的得分位列第一。单次任务成本仅 0.34 美元,比 Claude Opus 4.8 便宜约 75%,并在金融领域目标完成率达 71%。

模型 / llmposts.com 阅读原文

GPT-6 或将于本月提前发布，将采用更大规模预训练底座

据爆料 GPT-6 或在 2026 年 7 月底或 8 月提前发布，将采用规模显著大于 4T tokens 的新底座。同时 Fable 5.1 与 DeepSeek V4 GA 也预计在未来数周内推出。

模型 / llmposts.com 阅读原文

2026 · 昨天

7月8日周三

共 1 篇

Claude Cowork 支持移动端与 Web 端, 支持离线执行定时任务

Anthropic 发布 Claude Cowork 移动端与 Web 端支持,实现离线后台运行与多设备接力。据官方披露,超 90% 的使用场景为非代码知识工作,目前正向 Max 计划用户推送 Beta 版。

模型 / llmposts.com 阅读原文

2026 · 3 天前

7月6日周一

共 2 篇

Anthropic Fable 5.1 或将于 8 月发布, 迭代周期缩短至 4 个月

Anthropic 的 Fable 5.1 爆料显示该模型或已完成开发,预计将于 2026 年 8 月或 9 月发布。其更新节奏已从年度周期缩短至 2-4 个月一次前沿升级。

模型 / llmposts.com 阅读原文

Gemini 3.5 Pro 或支持 2M tokens 上下文窗口

据爆料 Gemini 3.5 Pro 将支持 2M tokens 上下文窗口，规模约为 Anthropic Fable 5 等模型的 2 倍，可单次处理超大规模代码库和文档。

模型 / llmposts.com 阅读原文

2026 · 5 天前

7月4日周六

共 3 篇

Anthropic 提升 Claude Platform API 速率限制，最高分级提升 5 倍

Anthropic 调整 Claude Platform API 速率限制，最高分级模型限额提升 5 倍且不再与消费金额挂钩，最新 Opus、Sonnet 和 Haiku 模型吞吐量实现统一。

模型 / llmposts.com 阅读原文

OpenAI 或于 7 月 7 日发布 GPT-5.6, 旨在通过高额度竞争 Claude 用户

OpenAI 计划在 7 月 7 日至 9 日发布 GPT-5.6 模型,旨在通过更宽松的额度限制吸引 Claude 用户。同时 Google DeepMind 暂定 Gemini 3.5 Pro 发布日期为 7 月 17 日。

模型 / llmposts.com 阅读原文

OpenAI 或于 7 月 7 日发布 GPT-5.6,DeepMind 计划推出 Gemini 3.5 Pro

据爆料 OpenAI 计划在 2026 年 7 月 7 日至 9 日发布 GPT-5.6,旨在通过更宽松的限额吸引 Claude 用户。同时 Google Gemini 3.5 Pro 预计于 7 月 17 日推出。

模型 / llmposts.com 阅读原文

2026 · 6 天前

7月3日周五

共 1 篇

Anthropic 发布 Claude Science 且计划开发自有药物

Anthropic 发布 Claude Science 科学工作站并宣布将直接开发自有药物,重点关注被忽视的疾病。尽管 AI 可加速分子筛选,但药物临床试验仍需约 10 年周期且缺乏高质量实验数据。

模型 / llmposts.com 阅读原文

2026

7月2日周四

共 1 篇

Anthropic 或与三星合作研发定制 AI 芯片以降低部署成本

Anthropic 或将与三星合作研发定制 AI 芯片，拟采用 2 纳米制程。据 The Information 报道，此举旨在通过自研硬件缓解部署成本与电力供应压力。

模型 / llmposts.com 阅读原文

2026

7月1日周三

共 5 篇

Anthropic 将删除 Claude Code 中针对中国用户的监控代码

Anthropic 确认将删除 Claude Code 中针对中国用户的隐藏监控代码。该代码自 3 月起运行，通过注入系统 prompt 收集用户时区和代理信息，预计在明日版本更新中完成回滚。

模型 / llmposts.com 阅读原文

Claude Code 被曝植入监测机制, 秘密收集中国用户代理与时区信息

Anthropic 的 Claude Code 被曝在 2.1.91 版本起植入监测机制,秘密收集中国用户时区与代理信息以防止蒸馏。负责人 Thariq 确认该实验将在次日版本中完全回滚。

模型 / llmposts.com 阅读原文

Claude Fable 5 明日全球重新上架:软件工程能力显著提升

Anthropic 宣布 Claude Fable 5 将于明日全球重新上架。该模型在 5000 万行代码库迁移任务中仅用 1 天完成原本需 2 个月的工作,并在金融推理评测集中获最高分。

模型 / llmposts.com 阅读原文

Anthropic 发布 Claude Sonnet 5: 强化 Agentic 能力且定价更低

Anthropic 发布 Claude Sonnet 5,强化 agentic 能力以支持自主计划与工具使用。推广期定价为 2 美元/百万 input tokens,性能在多个维度逼近 Opus 4.8。

模型 / llmposts.com 阅读原文

Anthropic 发布 Claude Desktop Linux 版 Beta, 支持 Ubuntu 与 Debian

Anthropic 发布 Claude Desktop Linux 版 Beta,支持 Ubuntu 22.04 和 Debian 12。该版本整合了 Claude Code 与 Cowork 功能,提供可视化 diff 审查与集成终端,但暂不支持 Computer Use 模式。

模型 / llmposts.com 阅读原文

2026

6月30日周二

共 1 篇

Claude Code 被曝植入监测机制, 通过 system prompt 隐秘回传用户隐私

Claude Code 被曝在 2.1.91 版本起植入监测机制,通过修改 system prompt 隐秘传输中国用户时区与代理信息。该行为采用 XOR 混淆隐藏,引发开发者对权限滥用与隐私泄露的担忧。

模型 / llmposts.com 阅读原文

2026

6月26日周五

共 3 篇

白宫要求 OpenAI 暂缓发布 GPT-5.6 以应对安全担忧

白宫出于安全考量要求 OpenAI 暂缓发布 GPT-5.6。据 The Information 报道，该模型目前仅向少数伙伴提供有限预览，政府将对客户逐一审批访问权限。

模型 / llmposts.com 阅读原文

Gemini 3.5 Flash 原生集成 Computer Use 能力

谷歌在 Gemini 3.5 Flash 中原生集成 Computer Use 能力,支持跨浏览器和桌面环境的 agent 自动化操作,并推出针对 prompt injection 的对抗训练与企业级防护系统。

模型 / llmposts.com 阅读原文

谷歌调整 AI 编程专项团队架构，试图缩小与 Anthropic 的差距

谷歌调整 AI 编程专项团队架构，将其升级为 midtraining 组以增强 Gemini 编程能力。此次变动发生在 Noam Shazeer 与 John Jumper 等核心人才离职之后，旨在应对 Anthropic 的竞争。

模型 / llmposts.com 阅读原文

2026

6月25日周四

共 3 篇

Anthropic 指控阿里巴巴利用 2.5 万个虚假账户蒸馏 Claude

Anthropic 指控阿里巴巴通过近 2.5 万个虚假账户非法访问 Claude，在 2026 年 4 月至 6 月间产生 2880 万次对话，旨在利用对抗性蒸馏训练 Qwen 模型。

模型 / llmposts.com 阅读原文

Gemini 核心成员或将离职，Google 面临新一轮 AI 人才流失

Google 再次发生核心 AI 人才流失，Gemini 关键贡献者计划加入 Anthropic。此次事件叠加此前 John Jumper 等人离职，反映出 Google 在算力分配与 IPO 激励面前的竞争压力。

模型 / llmposts.com 阅读原文

Claude Code 更新暗示 Fable 5 模型回归并纳入订阅配额

Claude Code v2.1.190 版本更新显示 Fable 5 模型回归,计费模式由单独购买信用额度转为订阅计划的周配额,预计近期将恢复访问。

模型 / llmposts.com 阅读原文

2026

6月24日周三

共 2 篇

OpenAI 联手 Broadcom 发布 Jalapeño 推理芯片，全栈自研加速 LLM 推理

OpenAI 与 Broadcom 发布首款 LLM 推理芯片 Jalapeño，设计至生产仅用 9 个月。该芯片针对 GPT-5.3-Codex-Spark 等模型优化，预计 2026 年底部署吉瓦级数据中心。

模型 / llmposts.com 阅读原文

Google DeepMind 或推迟 Gemini 3.5 Pro 发布计划

Google DeepMind 推迟 Gemini 3.5 Pro 发布计划,原定于 6 月 30 日上线的旗舰模型因竞争力不足决定延期。该模型主打编程与 agent 工作流强化,定价预计在 Gemini 3.1 Pro 基础上上浮约 1.5 倍。

模型 / llmposts.com 阅读原文

2026

6月23日周二

共 4 篇

GPT-5.6 系列发布或延期至 7 月中旬，Pro 版推理强度提升至 960

GPT-5.6 系列发布时间或延期至 7 月中旬。爆料显示 GPT-5.6 Pro 推理强度提升至 960，知识截止日期更新至 2025 年 12 月，并增强了 SVG 生成与 Playwright 自动化支持。

模型 / llmposts.com 阅读原文

Anthropic 或将为移动端推出 Cowork 支持, 实现云端任务调度

Anthropic 计划在 iOS 应用中推出 Cowork 移动端支持,将任务执行迁移至云端以解除本地硬件依赖。最新构建版本显示支持跨平台调度,且语音模式或将支持模型选择,预计 2026 年 6 月底发布。

模型 / llmposts.com 阅读原文

OpenAI 拟推出 GPT-Bidi-1 双向音频模型升级 ChatGPT 语音模式

OpenAI 计划推出 GPT-Bidi-1 双向音频模型，升级 ChatGPT 语音模式以支持实时中断响应，并提供 High、Medium、Instant 三档推理级别。

模型 / llmposts.com 阅读原文

GLM-5.2 领跑开源权重模型,GDPval-AA 智能体评测位列全球第三

智谱 AI 的 GLM-5.2 在 GDPval-AA 智能体评测中获得 1524 Elo 分数,位列全球第三,大幅领先 MiniMax-M3 等开源模型。

模型 / llmposts.com 阅读原文

2026

6月22日周一

共 1 篇

Claude Sonnet 5 或于下周发布，预计增强视觉能力并优化长上下文

Anthropic 的 Claude Sonnet 5 或将于下周发布，API 供应商已出现模型标识。预计升级 1M tokens 上下文并增强视觉能力，但 token 消耗可能增加 30%。

模型 / llmposts.com 阅读原文

2026

6月20日周六

共 4 篇

Claude Fable 5 或将恢复访问，软件工程能力可将数月工作量缩至数日

Anthropic 顶级模型 Claude Fable 5 或将在数日内恢复访问。该模型输入定价 10 美元/百万 token，在 5000 万行代码库迁移任务中将 2 个月工作量缩短至 1 天。

模型 / llmposts.com 阅读原文

微软成 OpenAI 进入中国通道，字节跳动年支出或超 10 亿美元

微软通过 Azure 在新加坡等地为中国企业提供 OpenAI 模型访问，字节跳动年度支出预计超 10 亿美元，Azure 中国 AI 收入在 2025 财年增长约 3 倍。

模型 / llmposts.com 阅读原文

Google DeepMind 内部爆料：模型竞争力下滑, 或跌至行业第四

Google DeepMind 内部爆料显示,公司在 AI 竞赛中排名跌至第五,Gemini 3.5 Pro 预计 6 月 30 日发布但被指缺乏竞争力,且被智谱 AI 等模型超越。

模型 / llmposts.com 阅读原文

GPT-5.6 Pro 或于下周四发布, 推理强度提升至 960

OpenAI 的 GPT-5.6 Pro 或于本周四发布,推理强度 Juice Value 提升至 960,知识截止日期更新至 2025 年 12 月,并集成 Playwright 自动化支持。

模型 / llmposts.com 阅读原文

2026

6月18日周四

共 2 篇

Transformer 共同作者 Noam Shazeer 正式加入 OpenAI

OpenAI 招募 Transformer 架构共同作者 Noam Shazeer。他在 2000 年加入 Google 并共同撰写了奠基性论文，此前曾参与 27 亿美元的 Character.AI 交易。

模型 / llmposts.com 阅读原文

Anthropic 称 Mythos 和 Fable 5 模型或将在数日内恢复访问

Anthropic 高管表示 Mythos 和 Fable 5 模型或在未来几天恢复访问。此前白宫出于安全考虑封禁该模型,目前 Project Glasswing 已覆盖约 150 个合作伙伴。

模型 / llmposts.com 阅读原文

2026

6月17日周三

共 1 篇

GLM-5.2 发布：支持 1M 上下文，专注长程编码任务且 MIT 开源

Z.ai 发布 GLM-5.2 旗舰模型，支持 1M tokens 上下文，并在 FrontierSWE 等长程编码评测中表现强劲，部分指标仅落后 Opus 4.8 1%。该模型采用 IndexShare 架构将计算量降低 2.9 倍，并以 MIT 协议开源。

模型 / llmposts.com 阅读原文

2026

6月16日周二

共 1 篇

Anthropic 派遣安全团队沟通无果,Claude Fable 5 出口管制依然生效

Anthropic 派遣安全团队前往 DC 沟通,但未能解除 Claude Fable 5 出口管制。美国政府与厂商就 Mythos 能力解锁风险存在分歧,目前该模型访问权限仍被禁用。

模型 / llmposts.com 阅读原文

2026

6月13日周六

共 1 篇

美国政府下令禁令,Anthropic 紧急禁用 Fable 5 与 Mythos 5

美国政府以国家安全为由要求暂停外国国民访问 Fable 5 与 Mythos 5。Anthropic 已于 2026 年 6 月 12 日禁用这两款模型的所有用户访问,但 GPT-5.5 等同类模型亦具备相关能力。

模型 / llmposts.com 阅读原文

2026

6月12日周五

共 2 篇

OpenAI 或下周发布 GPT-5.6：性能对标 Claude Fable 5 并计划降价

OpenAI 或于下周发布 GPT-5.6，据披露该版本在推理、代码及 agent 工作流方面有显著提升，性能可对标 Claude Fable 5 且定价或大幅下调。

模型 / llmposts.com 阅读原文

Moonshot 发布开源代码模型 Kimi-K2.7-Code, 推理 token 消耗降低 30%

Moonshot 发布开源代码模型 Kimi-K2.7-Code,总参数 1T,激活参数 32B。该模型在 Kimi Code Bench v2 提升 21.8%,且推理 token 消耗降低 30%,支持 256K 上下文。

模型 / llmposts.com 阅读原文

2026

6月11日周四

共 1 篇

Claude Fable 5 夺得 Code 与 Agent Arena 双冠, 任务成功率大幅领先

Claude Fable 5 在 Arena.ai 的 Code Arena 和 Agent Arena 评测中均夺冠,综合排名提升 11.2%,确认任务成功率提升 18.2%,在前端开发和智能体任务上领先 Opus-4.8 和 GPT-5.5。

模型 / llmposts.com 阅读原文

2026

6月10日周三

共 1 篇

Anthropic 发布 Claude Fable 5：软件工程 SOTA 且定价降低 50%

Anthropic 发布 Claude Fable 5,在软件工程与科学研究领域达到 SOTA 水平。该模型定价为 10 美元/百万输入 token,性能在 5000 万行代码迁移任务中表现出色。

模型 / llmposts.com 阅读原文

2026

6月8日周一

共 1 篇

Anthropic 内部模型 Mythos 5 曝出强悍前端能力, 代码优化可达 52 倍加速

据爆料 Anthropic 内部测试模型 Mythos 5 在代码优化任务中可实现最高 52 倍加速,且在 SVG 与前端生成领域表现强劲,但因成本过高公开版或被削弱。

模型 / llmposts.com 阅读原文

2026

6月7日周日

共 3 篇

谷歌每月支付 9.2 亿美元租用 SpaceX 算力以支持 Gemini agent 平台

谷歌与 SpaceX 达成协议,每月支付 9.2 亿美元租用 11 万块 NVIDIA GPU,租期从 2026 年 10 月至 2029 年 6 月,旨在支持 Gemini Enterprise 的 agent 平台需求。

模型 / llmposts.com 阅读原文

OpenAI 计划对 ChatGPT 进行最大规模重组, 将其转型为超级应用

OpenAI 计划将 ChatGPT 转型为集成编程工具与 AI agents 的超级应用,以提升高利润产品占比。目前企业客户贡献约 40% 营收,Codex 周活用户已超 500 万,旨在为今年 IPO 驱动增长。

模型 / llmposts.com 阅读原文

Anthropic 披露 AI 递归自我改进趋势:代码产出增 8 倍, 正逐步接管自身研发

Anthropic 披露 AI 正在加速自身开发,工程师代码产出达以往 8 倍,且 80% 以上代码由 Claude 编写。报告探讨了递归自我改进的路径,指出任务处理时长每 4 个月翻倍,并警示完全自主迭代模型带来的对齐风险。

模型 / llmposts.com 阅读原文

2026

6月6日周六

共 2 篇

Anthropic 或将发布新版 Mythos 模型, 内部红队代号 Oceanus

Anthropic 或将发布新版 Mythos 模型,内部红队测试代号为 Oceanus。预计定价为 16 美元/百万 input tokens 和 80 美元/百万 output tokens,测试于 6 月 5 日启动。

模型 / llmposts.com 阅读原文

谷歌发布 Gemma 4 QAT 模型:优化端侧量化,E2B 内存占用降至 1 GB

谷歌发布 Gemma 4 QAT 模型版本,通过量化感知训练将 E2B 模型内存占用降低至 1 GB 以下,支持 Q4_0 及移动端专用量化格式,旨在提升手机与笔记本的本地运行效率。

模型 / llmposts.com 阅读原文

2026

6月4日周四

共 1 篇

谷歌发布 Gemma 4 12B 模型:采用无编码器架构支持笔记本本地运行

谷歌发布 Gemma 4 12B 多模态模型,采用无编码器统一架构,仅需 16 GB 显存即可在笔记本本地运行,性能接近 26B MoE 模型并支持原生音频输入。

模型 / llmposts.com 阅读原文

2026

6月3日周三

共 3 篇

微软发布 MAI-Code-1-Flash 编程模型:性能超越 Claude Haiku 4.5 且更省 token

微软发布 MAI-Code-1-Flash 编程模型,在 SWE-bench Pro 上通过率达 51.2%,领先 Claude Haiku 4.5 达 16 个百分点,并能降低最高 60% 的 token 消耗。

模型 / llmposts.com 阅读原文

微软发布 MAI-Thinking-1 推理模型: 35B 规模且无需蒸馏

微软发布推理模型 MAI-Thinking-1,采用 35B 激活参数的 MoE 架构,在 AIME 2026 上达到 94.5% 准确率,且在人类偏好盲测中优于 Claude Sonnet 4.6。

模型 / llmposts.com 阅读原文

Codex 转型通用生产力工具：周活突破 500 万且非开发用户激增

OpenAI 发布报告称 Codex 周活跃用户突破 500 万，自 2 月桌面版发布后增长 6 倍。知识工作者占比达 20% 且增长速度快于开发者的 3 倍，标志着 Codex 转型为通用生产力工具。

模型 / llmposts.com 阅读原文

2026

6月2日周二

共 1 篇

Anthropic 扩大 Project Glasswing 规模, 利用 Mythos 模型挖掘万级高危漏洞

Anthropic 宣布扩大 Project Glasswing 规模至 150 家机构,利用 Claude Mythos Preview 漏洞扫描能力。该项目首批伙伴已发现逾 10,000 个高危漏洞,预计 6-12 个月内行业将迎来同类能力模型。

模型 / llmposts.com 阅读原文

2026

6月1日周一

共 1 篇

MiniMax 发布开源权重模型 M3: 引入 MSA 架构支持 1M 上下文与原生多模态

MiniMax 发布开源权重模型 MiniMax M3,采用全新的 MSA 稀疏注意力架构支持 1M tokens 上下文,在 SWE-Bench Pro 上达到 59.0% 评分,且原生支持多模态输入与电脑操作。

模型 / llmposts.com 阅读原文

2026

5月29日周五

共 3 篇

Anthropic 完成 650 亿美元 H 轮融资, 投后估值达 9650 亿美元

Anthropic 完成 650 亿美元 H 轮融资,投后估值达 9650 亿美元。公司年度经常性收入已突破 470 亿美元,并与 Amazon、Google 及 SpaceX 签署大规模算力协议以支持 Claude 扩展。

模型 / llmposts.com 阅读原文

Claude Code 推出动态工作流:支持实时编排并行子智能体处理复杂任务

Claude Code 研究预览版发布动态工作流功能,支持实时编排并行子智能体处理大规模迁移等复杂任务,现已面向 Max、Team 及 Enterprise 计划开放。

模型 / llmposts.com 阅读原文

Anthropic 发布 Claude Opus 4.8: 提升诚实度并引入动态工作流

Anthropic 发布 Claude Opus 4.8,增强了模型的诚实度与独立工作能力,且代码缺陷漏检率降低为前代的 4 倍。该版本维持 5 美元/百万 input token 的定价,并同步推出快速模式。

模型 / llmposts.com 阅读原文

2026

5月28日周四

共 8 篇

Kimi K2.6 模型在 OpenRouter 开放免费调用，支持 300 个 Agent 协作

Kimi K2.6 模型现已在 OpenRouter 平台免费上线，支持 262.1K tokens 上下文窗口，最高吞吐量达 117 tps，具备长视界编程与 300 个子 Agent 协作能力。

模型 / llmposts.com 阅读原文

Moonshot AI 发布 Kimi K2.6 多模态模型，支持免费 API 接入

Moonshot AI 发布多模态模型 Kimi K2.6，支持 262.1K tokens 上下文，目前在 OpenRouter API 免费开放，最高吞吐量达 117 tps。

模型 / llmposts.com 阅读原文

OpenRouter 完成 1.13 亿美元 B 轮融资, 构建多模型路由网关层

OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投。平台周处理量已达 25 万亿 token,服务 800 万开发者,定位为多模型 AI 时代的路由与网关层。

模型 / llmposts.com 阅读原文

Claude Voice Mode 或将支持中文，新增 Push-to-Talk 模式

Anthropic 计划为 Claude Voice Mode 增加中文等多国语言支持，并引入 push-to-talk 模式。该更新预计将通过升级编排层实现多语言切换，以对标 ChatGPT 与 Gemini 的语音能力。

模型 / llmposts.com 阅读原文

Claude Code 更新：优化全屏渲染与 MCP 稳定性, 引入流式思考输出

Claude Code 于 2026 年 5 月 28 日发布更新,重点修复 TUI 闪烁、优化 MCP 连接稳定性并引入流式 Thinking 输出,解决会话崩溃等可靠性问题。

模型 / llmposts.com 阅读原文

LLM Sleep 机制发布：通过类睡眠离线递归提升长上下文推理

卡内基梅隆大学等机构提出 LLM Sleep 机制,通过 N 次离线递归将上下文转换为持久权重,解决 Transformer 长上下文推理瓶颈,并在 GSM-Infinite 等任务中验证有效性。

模型 / llmposts.com 阅读原文

Claude Code 推出 /workflows 功能:用代码逻辑替代 LLM 编排

Anthropic 在 Claude Code 2.1.147 版本中推出 /workflows 功能,利用 JS 代码替代 LLM 编排以降低 token 消耗,目前该功能疑似已被暂时下线。

模型 / llmposts.com 阅读原文

OpenAI 将于 6 月 2 日在 Codex 中停用 GPT-5.2 与 GPT-5.3-Codex

OpenAI 宣布将于 2026 年 6 月 2 日在 Codex 中停用 GPT-5.2 和 GPT-5.3-Codex。免费用户将默认切换至 GPT-5.5,但 API 渠道仍可继续使用旧版本。

模型 / llmposts.com 阅读原文

2026

5月27日周三

共 3 篇

DeepMind CEO 预测 AGI 或于 2029 至 2030 年到来

Google DeepMind CEO Demis Hassabis 预测 AGI 可能于 2029 至 2030 年到来,并将当前 AI agent 浪潮视为社会压力测试,呼吁政府加速安全治理。

模型 / llmposts.com 阅读原文

微软发布 MAI-Image-2.5 图像模型,Arena 评测排名第三

微软发布 MAI-Image-2.5 图像生成模型,在 Arena text-to-image 榜单获得 1,254 分排名第三,较前代提升 72 分,重点强化了文本渲染与商业影像质量。

模型 / llmposts.com 阅读原文

Anthropic 为 Claude Code 发布 security-guidance 插件, 实时拦截代码漏洞

Anthropic 发布 Claude Code security-guidance 插件,通过三层审查机制将 PR 安全评审意见减少 30-40%,支持 2.1.144 版本以上 CLI。

模型 / llmposts.com 阅读原文

2026

5月26日周二

共 3 篇

Qwen3.7-Max 编程能力排名全球第二

阿里巴巴 Qwen3.7-Max 在 Code Arena 编程评测中获得 1541 分,排名全球第二并超越 GPT-5.5 与 Gemini-3.5-Flash,支持 35 小时会话中 1,000 次 tool calls。

模型 / llmposts.com 阅读原文

中国扩大民营企业 AI 人才出境限制，要求关键人员出国须获批

中国政府于 2026 年 5 月 26 日起扩大对阿里巴巴、DeepSeek 等民营企业顶尖 AI 人才的出境限制，要求关键专业人士出国前须获批准，以防止战略性技术外流。

模型 / llmposts.com 阅读原文

Kimi K2.6 登顶 3D 设计榜单, 性能超越 GPT 5.5 与 Opus 4.7

Kimi K2.6 在 Design Arena 3D 设计排行榜中夺冠,排名较 K2.5 提升 18 位,性能超越 GPT 5.5 和 Opus 4.7 等闭源模型。

模型 / llmposts.com 阅读原文

2026

5月25日周一

共 2 篇

Antigravity 引入 Gemini 3.5 Flash (Low) 档位, 简单任务 token 消耗降低 45%

Antigravity 推出 Gemini 3.5 Flash (Low) 档位,在简单任务中可比 Medium 档位减少约 45% 的 token 生成量,并重置了所有用户的 Gemini 配额。

模型 / llmposts.com 阅读原文

Anthropic 将为 Claude 推出 Memory Files 结构化记忆系统

Anthropic 计划为 Claude 引入 Memory Files 记忆系统,支持按主题存储结构化文档并配合 Dreams 异步整合功能。目前 Dreams 仅在 Opus 4.7 与 Sonnet 4.6 中 beta 测试。

模型 / llmposts.com 阅读原文

2026

5月24日周日

共 8 篇

AI 成本悖论：微软与 Uber 削减 AI 用量，算力开支或已超过人力成本

微软取消 Claude Code 许可揭示 AI 部署成本危机。报告显示 agentic AI 可能在 2030 年导致 token 消耗量增长 24 倍,即便单价下降 90%,总成本仍将大幅攀升。

模型 / llmposts.com 阅读原文

Anthropic 将发布 Mythos 模型：此前曾称能力过强无法公开

Anthropic 确认将发布内部代号为 Mythos 的模型。该模型此前被认为能力过强无法公开，但在 2026 年 5 月的更新中披露将通过 Project Glasswing 推进通用发布。

模型 / llmposts.com 阅读原文

白宫批准 90 亿美元秘密资金，应对美国政府 AI 芯片短缺

美国白宫批准 90 亿美元秘密申请以应对美国政府 AI 芯片短缺，旨在采购 Nvidia Grace Blackwell 芯片。此次行动旨在确保 NSA 等情报机构能运行 Anthropic Mythos 等顶级模型，避免在网络安全与间谍工作中落后。

模型 / llmposts.com 阅读原文

CodeGraph 代码图谱发布：用本地索引降低 AI Agent 检索成本

CodeGraph 代码图谱正式发布，通过本地 SQLite 构建符号调用关系，将 AI 编程 Agent 的 token 消耗降低 59%、工具调用减少 70%。支持 Claude Code 等主流工具。

模型 / llmposts.com 阅读原文

OpenAI Q1 2026 财务数据曝光：巨额亏损与用户增长停滞

《The Information》披露 OpenAI Q1 2026 财务数据，公司当季营收 57 亿美元，非 GAAP 运营利润率跌至 -122% 导致约 69.5 亿美元亏损。ChatGPT 周活用户增长停滞，付费转化仅 6%，公司面临算力经济账与 IPO 考量。

模型 / llmposts.com 阅读原文

Codex 速率限制问题已修复，所有账户额度已重置

Codex 因缓存压缩优化导致速率限制异常消耗，OpenAI 已回滚该优化并重置所有账户额度。事件影响 Web、API 等 5 个组件，约 2.5 小时内完成修复。

模型 / llmposts.com 阅读原文

Claude Mythos 1 将集成至 Claude Code 与 Security

据 TestingCatalog 曝料,Anthropic 正加速推进 Claude Mythos 发布,暂命名为 Mythos 1,用户界面已短暂出现该模型入口,代码字符串确认将集成至 Claude Code 与 Claude Security。

模型 / llmposts.com 阅读原文

Google 宣布 Gemini CLI 关停，6 月 18 日整合至 Antigravity CLI

Google 宣布 Gemini CLI 于 2026 年 6 月 18 日停止服务，功能整合至 Antigravity CLI 与 Antigravity 2.0 桌面应用，企业用户不受影响。

模型 / llmposts.com 阅读原文

2026

5月23日周六

共 7 篇

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

据 X 平台科技博主 Pankaj Kumar 最新 GPT-5.6 泄露信息，OpenAI 或于六月发布 GPT-5.6 与 GPT-5.6 Pro，含 iris-alpha 等三款变体，Sonnet 4.8 与 Gemini 3.5 Pro 也预计同期发布。

模型 / llmposts.com 阅读原文

约 10% 的 Codex 流量转向 Pi Harness 与 OpenCode

OpenAI Codex 流量分配出现新动向，团队工程师披露约 10% 生产流量流转至 Pi 与 OpenCode。得益于开放 app server 与 SDK，开发者复用 ChatGPT 账号免额外成本。

模型 / llmposts.com 阅读原文

DeepSeek-V4-Pro 永久降价, 折后价成常态

DeepSeek 宣布 DeepSeek-V4-Pro 永久降价，2026 年 5 月 31 日结束 2.5 折优惠后执行折后价，输入 3 元/百万 token、输出 6 元/百万 token，相当于原价 25%，Flash 版同步登顶 OpenRouter 周榜

模型 / llmposts.com 阅读原文

ChatGPT PowerPoint 集成上线，支持直接创建编辑演示文稿

OpenAI 于 2026 年 5 月推出 ChatGPT for PowerPoint 测试版，该 ChatGPT PowerPoint 集成功能支持在演示软件中直接以自然语言创建、编辑和分析演示文稿，覆盖 Business、Enterprise、Free 等全部用户层级并内置图片生成。

模型 / llmposts.com 阅读原文

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

Anthropic Project Glasswing 首月报告显示，Claude Mythos Preview 漏洞挖掘能力已发现超万枚高危严重漏洞，Cloudflare 确认 2,000 枚含 400 枚高危，开源项目 1,752 枚评估准确率达 90.6%

模型 / llmposts.com 阅读原文

Claude Sonnet 4.8 泄露:Anthropic 或跳过 4.7 升级视觉与编码

Anthropic 的 Claude Sonnet 4.8 泄露事件由 Claude Code npm 更新意外曝光,源码包含 512,000 行调试信息。新模型或跳过 Sonnet 4.7,视觉准确率超 98%,引入 X high 推理层级,预计 2026 年 6 月中下旬发布。

模型 / llmposts.com 阅读原文

Anthropic 超 300 亿美元融资即将收官，估值逾 9000 亿美元超越 OpenAI

Anthropic 即将完成超 300 亿美元融资，估值逾 9000 亿美元超越 OpenAI 成为全球最高估值 AI 初创。红杉等机构各投约 20 亿美元，Q2 收入预计 109 亿美元，年化收入即将突破 500 亿美元，公司有望首次实现盈利。

模型 / llmposts.com 阅读原文

2026

5月22日周五

共 4 篇

智谱发布 GLM-5.1-HighSpeed：400 tokens/s 刷新大模型速度上限

智谱发布 GLM-5.1-HighSpeed 速度表现达 400 tokens/s 的旗舰模型，采用自研 TileRT 推理引擎重构底层架构，在 8 块 H200 GPU 环境下实现极低首字延迟与生产级稳定输出。

模型 / llmposts.com 阅读原文

Cloudflare AI 裁员：高增长下的 20% 人员优化策略

Cloudflare 在营收创纪录背景下裁掉超 20% 员工，CEO 撰文详解 AI 正逐步替代内部测量岗位。此举不仅未缩减招聘规模，反而将资源集中于核心构建与销售人才。

模型 / llmposts.com 阅读原文

Cursor Composer 2.5 评测: 编码智能体性价比新标杆，SWE-Bench 跃升 35 分

Artificial Analysis 发布 Cursor Composer 2.5 评测报告，该模型在 Coding Agent Index 获 62 分位列第三，SWE-Bench 得分跃升 35 分，单任务成本仅 0.07 美元，显著低于 Opus 4.7 与 GPT-5.5 变体。

模型 / llmposts.com 阅读原文

Codex “锁定使用”现已推出，支持 Mac 锁屏后远程操作

OpenAI 更新 Codex 电脑控制功能，锁定电脑使用支持 Mac 锁屏后远程操作桌面应用。内置授权插件与临时解锁窗口，提供输入监测与审批机制。

模型 / llmposts.com 阅读原文

2026

5月21日周四

共 5 篇

Qwen3.7 Max 跑分超上一版 4.8 分，闭源旗舰逼近技术前沿

阿里发布闭源旗舰模型 Qwen3.7 Max，在 Artificial Analysis Intelligence Index 跑分达 56.6，较上一版提升 4.8 分。核心提升来自科学推理与代码任务，通过降低幻觉率策略缩小与第一梯队差距。

模型 / llmposts.com 阅读原文

Manus 创始人团队将筹集 10 亿美元回购 Meta 股权

Manus 三位创始人正磋商约 10 亿美元融资轮次，拟回购 Meta 旗下智能体 AI 业务，重组为中外合资企业并筹备港股上市，该 Manus 股权回购方案或需创始人注资补足差额。

模型 / llmposts.com 阅读原文

Gemini 3.5 Pro 泄露预告：定位类 GPT-5.5 旗舰，强化 Coding 与 Agent 工作流

据泄露信息，Gemini 3.5 Pro 将于 6 月下旬发布，定位 GPT-5.5 级旗舰，强化 Coding 能力与长周期 agent 工作流。定价延续 1.5 倍浮动策略，重点引入 grounding 机制抑制幻觉。

模型 / llmposts.com 阅读原文

Anthropic 营收增速超预期, 二季度预计达 109 亿美元并首次盈利

据《华尔街日报》最新披露, Anthropic 预计二季度营收增速将超预期, 财报显示营收将达 109 亿美元。在扣除算力成本后, 运营利润将转正至 5.59 亿美元, 首次实现季度盈利。

模型 / llmposts.com 阅读原文

OpenAI 通用推理模型证明 1946 年单位距离猜想

据 OpenAI 披露，其通用推理模型自主破解 1946 年平面单位距离猜想，构建至少 n^{1+δ} (δ≈0.014) 个单位对点，经多位国际顶尖数学家验证，展现了跨领域科研推理能力。

模型 / llmposts.com 阅读原文

2026

5月20日周三

共 7 篇

Qwen3.7-Max 发布：重构智能体长程自主执行

阿里云正式发布 Qwen3.7-Max 模型，面向智能体时代。该模型支持长周期自主执行，在 35 小时无中断任务中跨越千次工具调用，编程基准 SWE-Pro 达 60.6，即将通过阿里云百炼 API 上线。

模型 / llmposts.com 阅读原文

Google Gemini App 升级推出 Gemini Spark 智能体与 Daily Brief

Google 推出 Gemini App 重大升级，基于 Gemini 3.5 与 Antigravity Harness 构建 Gemini Spark 智能体，支持 7×24 小时云端常驻及多工具工作流自动化。该功能将于下周面向美国 Google AI Ultra 用户推送 Beta，反映云端长周期智能体在意图驱动自动化领域的工程演进。

模型 / llmposts.com 阅读原文

Gemini Omni 模型发布，首发 Flash 版主打自然语言视频编辑

Google 正式发布新一代多模态旗舰模型 Gemini Omni。首发变体 Gemini Omni Flash 登陆 Gemini app 与 Google Flow,主打自然语言视频编辑。该模型支持多模态输入生成视频,内置 SynthID 数字水印与可验证数字分身。

模型 / llmposts.com 阅读原文

Gemini 3.5 Flash 跑分出炉：Agentic 能力逼近 GPT-5.4

Google 发布新款 Flash 系列模型 Gemini 3.5 Flash，在 Intelligence Index 综合评测中斩获 55 分。该模型支持全模态输入与 1M tokens 上下文窗口，定价高达输入端 1.50 美元、输出端 9.00 美元，实际运行成本较上代增加 5.5 倍。

模型 / llmposts.com 阅读原文

Google 发布 Gemini 3.5 Flash：面向智能体工作流与代码生成的前沿推理模型

Google 发布 Gemini 3.5 Flash，基准测试在智能体任务上得分达 1656 Elo，推理速度为其他前沿模型 4 倍。该模型将作为 Gemini Spark 默认架构全面部署，并于 6 月中旬推出 Pro 版本。

模型 / llmposts.com 阅读原文

Google 发布 Antigravity 2.0 桌面应用多 Agent 编排构建操作系统

据 Google 官方披露, Antigravity 2.0 独立桌面应用今日上线, 集成 CLI、SDK 与原生语音支持。演示中 93 个并行 Agent 12 小时内构建完整操作系统, API 成本低于 1000 美元, 标志着多智能体编排进入工程化阶段。

模型 / llmposts.com 阅读原文

Google 发布 Gemini 3.5 Flash：主打 agent 与 coding，定价低于竞品

Google DeepMind 发布 Gemini 3.5 Flash 模型，在 coding 与 agentic 任务上超越 3.1 Pro，支持子代理并行处理大规模代码库，定价仅为竞品的一部分。已上线 Gemini App 与 Google AI Studio。

模型 / llmposts.com 阅读原文

2026

5月19日周二

共 9 篇

Andrej Karpathy 加入 Anthropic，曾主导 Tesla Autopilot 视觉系统

Andrej Karpathy 宣布加入 Anthropic，曾参与创立 OpenAI、主导 Tesla Autopilot 视觉系统。2024 年 7 月创立 Eureka Labs 专注 AI 教育，现重返 LLM 研发一线。

模型 / llmposts.com 阅读原文

Cloudflare 测试 Anthropic Mythos Preview 红队测试: 漏洞链式利用

Cloudflare 在 Project Glasswing 项目中对 Anthropic Mythos Preview 完成安全红队测试,模型可将多处低危漏洞链式转换为真实利用链并自动生成 PoC。实测表明单纯追求缩短安全响应周期收效有限,防御架构需向纵深演进。

模型 / llmposts.com 阅读原文

Claude Managed Agents 发布自托管沙箱与 MCP 隧道功能

Anthropic 于 2026 年 5 月 19 日发布 Claude Managed Agents 自托管沙箱与 MCP 隧道功能。Self-hosted sandboxes 进入 public beta，支持 Cloudflare、Daytona、Modal、Vercel 四家提供商；MCP tunnels 处于 research preview，可安全连接私有网络服务。

模型 / llmposts.com 阅读原文

Claude Code Fast mode 默认启用 Opus 4.7，响应速度提升 2.5 倍

Claude Code Fast mode 现已默认启用 Opus 4.7，响应速度约为标准模式的 2.5 倍，输入/输出定价均为 30 美元/百万 token，适用于快速迭代与实时调试等延迟敏感场景。

模型 / llmposts.com 阅读原文

Manus 发布 Scheduled Tasks 2.0：定时任务进入上下文感知时代

Manus 于 2025 年 5 月 19 日发布 Scheduled Tasks 2.0，支持在同任务中延续上下文、为 Web 应用配置后台定时操作，并提供独立的调度视图与运行历史追踪。该功能已面向所有用户开放。

模型 / llmposts.com 阅读原文

Cursor 发布 Composer 2.5：定向 RL 文本反馈与 Sharded Muon 优化器详解

Cursor 发布 Composer 2.5，基于 Kimi K2.5 开源检查点，采用定向 RL 文本反馈与 Sharded Muon 优化器，合成数据扩展 25 倍，输入定价 $0.50/百万 tokens，快速版本 $15/百万输出 tokens。

模型 / llmposts.com 阅读原文

Claude 提示词缓存诊断功能上线：精准定位缓存未命中分歧点

Claude 推出 Prompt cache diagnostics 测试版，传入 beta header cache-diagnosis-2026-04-07 与上一条响应 ID 即可对比请求指纹，精准定位模型参数、system prompt、工具或消息历史中的首次分歧点，帮助开发者修复缓存未命中根因。

模型 / llmposts.com 阅读原文

Qwen3.6 MTP GGUF 发布：本地推理 1.4-2.2 倍加速，精度无损

Unsloth 为 Qwen3.6 发布 MTP（Multi Token Prediction）GGUF 量化版本，据官方测试本地推理速度提升 1.4-2.2 倍、精度无损。27B 在 RTX 6000 跑 160 tokens/s，35B-A3B 跑 240 tokens/s。Qwen3.5 全家族也补齐 MTP，已有用户可直接迁移。

模型 / llmposts.com 阅读原文

Anthropic 收购 Stainless 补强开发者工具链，交易或达 3 亿美元

Anthropic 于 2026 年 5 月 18 日宣布收购 SDK 工具商 Stainless，交易金额据 The Information 报道或达 3 亿美元。Stainless 将为 Claude 的 MCP 生态与 agent 连接能力提供工具链支持。

模型 / llmposts.com 阅读原文

2026

5月18日周一

共 1 篇

OpenAI Codex 限额故障 2 小时, 用户额度全额回退

OpenAI 的 Codex 编码智能体出现 OpenAI Codex 限额故障, 错误提示订阅用户余额仅剩 0%. 官方确认故障持续两小时, 期间被扣除的 token 将全额回退, 厂商已恢复限制并建议重用户精简提示词以稳定额度.

模型 / llmposts.com 阅读原文

2026

5月17日周日

共 6 篇

Claude Sonnet 4.5 下架日期延期为 5 月 18 日

Claude Sonnet 4.5 下架日期被曝从 5 月 15 日悄然改为 5 月 18 日，Anthropic 未发布官方说明。用户过去一周积极反馈该模型不可替代性，未获回应。行业沟通透明度问题引发开发者社区关注。

模型 / llmposts.com 阅读原文

Microsoft AI CEO 预警：白领工作或在 18 个月内被 AI 全面自动化

Microsoft AI CEO Mustafa Suleyman 预测 18 个月内 AI 将全面自动化白领工作，涵盖会计、法律、营销等领域。然而 METR 研究显示 AI 使开发者效率下降 20%，2026 年至今已有 49,135 个 AI 相关岗位被裁。该预测与实体经济数据存在显著落差，实际影响有待验证。

模型 / llmposts.com 阅读原文

Grok V9 1.5T 模型或将于夏季发布：xAI 完成基础训练并进入补充训练阶段

xAI 创始人 Elon Musk 披露 Grok V9 1.5T 模型已完成基础训练，参数量达 1.5T，预计 3 至 4 周后发布。该版本将整合 Cursor 数据进行补充训练，随后进入 SFT 与 RL 阶段。

模型 / llmposts.com 阅读原文

GitHub Copilot app 技术预览发布：桌面端 agentic 开发工作流

GitHub 于 2026 年 5 月 14 日发布 Copilot app 技术预览，支持从 issue/PR 启动 agentic 会话、隔离分支工作区与 Agent Merge 自动合并，Pro/Pro+ 订阅者可申请早期访问。

模型 / llmposts.com 阅读原文

Codex 付费计划用量限制全量重置，OpenAI 补偿 GPT-5.5 异常期损耗

OpenAI 宣布修复 Codex GPT-5.5 模型能力衰减问题，并于 5 月 16 日重置全量付费计划用量限制。此次修复耗时不足 10 小时，涉及底层路由策略优化，直接提振了数百万周活跃用户的代码生成效率。

模型 / llmposts.com 阅读原文

Claude Mythos 现身 Google Cloud 控制台，Anthropic 或调整访问策略

Claude Mythos 被曝现身 Google Cloud 控制台且配置有跨区域配额，该模型此前由 Anthropic 限制仅向 Google、Microsoft 等合作伙伴开放用于防御性漏洞挖掘，社区对其是否会转向更广泛发布存在分歧。

模型 / llmposts.com 阅读原文

2026

5月16日周六

共 7 篇

Veo 4 被曝支持多机位场景生成：动态视角切换、9 秒 720p 输出

Veo 4 视频生成模型在 Google I/O 前夕被曝支持多机位场景生成与动态视角切换，单条视频输出规格为 9 秒 720p，原生音频同步能力同步升级，或定位为 Seedance 2.0 的竞品。

模型 / llmposts.com 阅读原文

OpenAI 与马耳他合作：ChatGPT Plus 将向全民免费开放

OpenAI 与马耳他政府达成全球首个国家级合作，向完成 AI 素养课程的所有公民提供一年免费 ChatGPT Plus。首批将于 2026 年 5 月启动。

模型 / llmposts.com 阅读原文

OpenAI Codex 团队修复 GPT-5.5 性能异常，系统已恢复稳定运行

OpenAI Codex 团队于 2026 年 5 月 16 日确认修复两项导致 GPT-5.5 性能下降的技术问题，系统已恢复稳定运行，使用限制将在晚间验证完成后重置。

模型 / llmposts.com 阅读原文

Anthropic 与盖茨基金会达成 2 亿美元合作，聚焦全球健康与教育

Anthropic 与盖茨基金会达成 2 亿美元合作，未来四年聚焦全球健康、教育及经济流动性领域，目标惠及 46 亿缺乏基本医疗服务的人口。

模型 / llmposts.com 阅读原文

SpaceXAI 研发骨干持续流失预训练团队仅剩个位数

第三方媒体披露，SpaceXAI 人员流失态势严峻，超 50 名研发工程师自合并离任，核心预训练团队仅余个位数。此现象与高压工作文化叠加员工套现离场密切相关，恐影响模型迭代进度。

模型 / llmposts.com 阅读原文

OpenAI 宣布 Greg Brockman 接管产品战略与整合业务

据 WIRED 报道，OpenAI 宣布 Greg Brockman 正式接管产品战略，主导 ChatGPT 与 Codex 核心业务合并。此次 OpenAI 产品重组将多条团队整合为单一产品线，目标在年底完成 IPO 前统一智能体架构。

模型 / llmposts.com 阅读原文

ChatGPT 个人财务功能预览：接入账户与 GPT‑5.5 推理分析

OpenAI 向美国 ChatGPT Pro 用户推出个人财务功能预览，支持通过 Plaid 安全接入 1.2 万家金融机构账户，默认调用 GPT‑5.5 Thinking 模型进行收支分析与场景规划。

模型 / llmposts.com 阅读原文

2026

5月15日周五

共 10 篇

OpenRouter BYOK 功能升级：多 Key 分组、精细过滤与分层触发

OpenRouter 宣布 BYOK 支持多 Key 优先分组、按模型或用户过滤与分层触发逻辑。使用自定义 Provider Key 费率降至原价 5%，每月 1M 请求免收手续费。

模型 / llmposts.com 阅读原文

Anthropic Mythos 5 天发现 macOS 安全漏洞

据华尔街日报报道，安全公司 Calif 使用 Anthropic Mythos AI 于 2026 年 4 月发现 macOS 权限提升漏洞，利用链可绕过 Apple MIE 内存保护机制，相关 55 页技术报告已提交 Apple 审阅。

模型 / llmposts.com 阅读原文

微软取消 Claude Code 许可证，数千名开发者将转用 Copilot CLI

据 The Verge 报道，微软计划取消数千名开发者的 Claude Code 许可证，6 月 30 日前统一转向 GitHub Copilot CLI。该决策涉及 Experiences + Devices 团队，财务考量与产品整合双重因素驱动。

模型 / llmposts.com 阅读原文

Grok Build CLI 早期测试开放：面向终端的全栈编码代理

xAI 正式推出 Grok Build CLI 编码代理，率先面向 SuperGrok Heavy 订阅用户开放内测。该终端工具支持计划审查、多子 agent 并行开发与无头模式接入，为开发者提供开箱即用的本地代码工作流。

模型 / llmposts.com 阅读原文

Anthropic 或完成 300 亿美元融资，估值将达 9000 亿美元

据《金融时报》报道，Anthropic 已达成 300 亿美元融资协议，估值将达 9000 亿美元，年化收入预计突破 450 亿美元，三个月内实现估值近三倍跃升。

模型 / llmposts.com 阅读原文

Gemini 3.2 Flash 将更名为 Gemini 3.5 Flash，内部参数已曝光

谷歌或推出重命名版 Gemini 3.5 Flash 模型，定价泄露至 0.25 美元每百万 token 且响应延迟传闻压至 200 毫秒内，性能逼近 Pro 级水平，预计 5 月前后亮相。

模型 / llmposts.com 阅读原文

Claude Code 部署模式的正确用法：分层配置与大代码库工作流

百万行 monorepo 环境中决定工具效率的关键并非基准跑分，而是工程配置层。掌握 CLAUDE.md 分层、Hooks 等技巧，构建稳定高效的 Claude Code 部署模式。

模型 / llmposts.com 阅读原文

OpenAI 确认 npm 供应链攻击事件，强制更新代码签名证书

OpenAI 供应链攻击事件曝光，TeamPCP 通过恶意 npm 包入侵两名员工设备。为阻断潜在恶意代码分发，官方强制 macOS 用户在 2026 年 6 月 12 日前完成应用更新，核心业务与客户数据未受影响。

模型 / llmposts.com 阅读原文

Codex 上线 ChatGPT 移动端：手机远程开发预览版开放

OpenAI 宣布 Codex 接入 ChatGPT 移动应用，iOS 与 Android 预览版已向所有套餐用户开放。支持远程 SSH 连接与实时状态同步，Windows 版手机连接支持即将推出。

模型 / llmposts.com 阅读原文

Kimi Web Bridge 浏览器扩展发布：支持 Claude Code 与 Cursor 本地网页自动化

Kimi Web Bridge 浏览器扩展发布，支持 Claude Code、Cursor、Codex 等 AI Agent 通过 Chrome DevTools Protocol 操控本地浏览器。据官方文档，该工具采用本地桥接架构，登录状态与网页内容不上传云端，适用于电商比价、批量表单填写等重复性网页操作。

模型 / llmposts.com 阅读原文

2026

5月14日周四

共 9 篇

蚂蚁百灵开源 Ring-2.6-1T 万亿参数模型，主打 Agent 执行与深度推理

蚂蚁百灵开源 Ring-2.6-1T 万亿参数思考模型，采用 IcePop 异步强化学习算法。该模型在 PinchBench 与 SWE-Bench 等 benchmark 中表现突出，支持 high 与 xhigh 两种推理力度，面向复杂企业自动化与长程任务部署。

模型 / llmposts.com 阅读原文

Ramp 数据：Anthropic 企业采用率首超 OpenAI，达 34.4%

据 Ramp AI Index，Anthropic 企业采用率 4 月升至 34.4%，首次超过 OpenAI 的 32.3%。过去一年 Anthropic 企业采用率增长约 4 倍，但分析师指出其面临成本上涨与服务质量下滑三重逆风。

模型 / llmposts.com 阅读原文

Google I/O 或将发布 Gemini Spark Agent：曝 24/7 AI 助手支持学习用户行为

Google I/O 前夕，社交媒体爆料显示 Gemini Spark Agent 或将作为 24/7 AI 助手发布。据披露，该 Agent 支持从用户行为中学习，可调用 Connected Apps 与第三方服务集成。

模型 / llmposts.com 阅读原文

OpenAI Codex 企业推广：签约企业即送 2 个月免费额度

OpenAI 宣布针对计划切换的企业客户提供激励政策。签约即送 2 个月免费 OpenAI Codex 企业推广额度。活动持续至 6 月中旬，旨在与 Anthropic 争夺开发者市场。

模型 / llmposts.com 阅读原文

OpenAI 重构 Windows 平台 Codex 沙箱实现方案

OpenAI 详细公开了 Codex 编码智能体在 Windows 平台的沙箱实现路径。该方案历经非提权与提权架构迭代，通过合成 SID、受限 token 与专属防火墙规则，在保障系统隔离的同时保留了智能体对开发者环境的读写兼容性。

模型 / llmposts.com 阅读原文

Claude computer use 最佳实践：分辨率配置、思考深度与回放机制

Anthropic 正式公布 Claude computer use 最佳实践，明确 1280x720 默认配置与 3.75M 像素硬性上限，完整拆解点击精度对齐、自适应思考阈值调度及工作流录制回放架构。

模型 / llmposts.com 阅读原文

Claude 订阅计划将推 Agent SDK 专属月度额度

6 月 15 日起 Claude 订阅套餐将引入 Claude Agent SDK 月度额度，Pro 套餐 $20 起，隔离交互与程序化计费，规避自动化脚本抢占订阅限额。

模型 / llmposts.com 阅读原文

Claude Code 周限额临时提升 50% 至 7 月 13 日

Anthropic 宣布 Claude Code 周使用限额临时提升 50%，覆盖 Pro、Max、Team 及企业用户，有效期至 7 月 13 日，可与上周 2 倍时长上限叠加生效。

模型 / llmposts.com 阅读原文

Anthropic 收购 Stainless 或达 3 亿美元

Anthropic 收购 Stainless 的谈判被曝进入后期，The Information 称金额至少 3 亿美元；Stainless 为 OpenAI、谷歌和 Anthropic 提供 SDK、API 文档与 agent 接口。

模型 / llmposts.com 阅读原文

2026

5月13日周三

共 6 篇

Anthropic 发布 20 余 Claude 法律插件与连接器

Anthropic 推出 20 余个 MCP 连接器与 12 个专业 Claude 法律插件，深度整合 Microsoft 办公套件及合同、研究等核心系统，底层依托 Opus 4.7 模型提升文书自动化处理效率。

模型 / llmposts.com 阅读原文

吴恩达驳 AI 失业论，预测 AI 就业繁荣即将来临

吴恩达 AI jobapalooza 预测指出现阶段美国失业率仅为 4.3%，反驳 AI 引发大规模失业的恐慌叙事。本文剖析前沿实验室夸大技术影响力的商业动机，并探讨劳动力市场转型路径。

模型 / llmposts.com 阅读原文

亚马逊 MeshClaw 工具 token 刷量现象引发争议

亚马逊部署内部 AI 智能体平台 MeshClaw 工具后，员工面临超 80% 开发者周使用目标与内部分数排行榜压力，出现为刷 token 量自动化非必要任务的现象。两千亿美元资本开支背景下，企业 AI 工具推广与安全权限治理面临行业共性挑战。

模型 / llmposts.com 阅读原文

Claude Opus 4.7 fast mode 开放预览

Claude Opus 4.7 fast mode 已在 API 与 Claude Code 开放 research preview，官方称速度为 2.5 倍，价格为输入 30 美元/MTok、输出 150 美元/MTok。

模型 / llmposts.com 阅读原文

Google 重构 AI 指针交互：Gemini 驱动与 Chrome 落地

Google 提出基于 Gemini 的 AI 指针交互新范式，通过深层意图理解实现跨应用无缝调用。该设计已集成至 Chrome 浏览器及新款 Googlebook 中，开启自然语音与指向结合的交互时代。

模型 / llmposts.com 阅读原文

Arena 最新榜单：Claude Opus 4.7 领跑五大前沿模型

Arena 模型排名显示五大主流前沿模型能力分化。Claude Opus 4.7 在主要评测类别占据榜首，Gemini 3.1 Pro 与 GPT-5.5 High 紧随其后，展现各厂商在推理与创意任务上的技术权衡。

模型 / llmposts.com 阅读原文

2026

5月12日周二

共 6 篇

Interfaze 模型发布：融合 CNN 与 Transformer 的精度架构

Interfaze模型发布全新混合架构，融合CNN与Transformer。官方公布9项基准测试成绩，光学字符识别与结构化输出准确率领先同级闪省模型，定价为1.50美元每百万输入标记。

模型 / llmposts.com 阅读原文

OpenAI 警告未经授权股权交易

OpenAI 于 2026 年 5 月 12 日警告未经授权的 OpenAI 股权交易，称未获书面同意的直接或间接转让可能无效，并可能违反美国证券法。

模型 / llmposts.com 阅读原文

vLLM 登顶 Artificial Analysis 榜单，开源推理栈反超专有栈

DigitalOcean 最新基准测试显示，vLLM 登顶 Artificial Analysis 推理排行榜，DeepSeek V3.2 输出吞吐达 230 TPS 且 Qwen 3.5 397B TTFT 低于 1 秒，多项内核优化已合入主线。

模型 / llmposts.com 阅读原文

MiniCPM-V 4.6 1.3B 刷新 2B 以下开源权重得分

MiniCPM-V 4.6 1.3B 在 Artificial Analysis Intelligence Index 上得分 13，并以 5.4M 输出 token 完成评测，支持文本、图像与视频输入，采用 Apache 2.0 许可证。

模型 / llmposts.com 阅读原文

Claude Code 推出 agent view 管理并行会话

Anthropic 于 2026 年 5 月 11 日推出 Claude Code agent view，支持在 CLI 中集中管理并行会话，现以 Research Preview 向 Pro、Max、Team、Enterprise 和 Claude API 计划开放。

模型 / llmposts.com 阅读原文

Claude Platform on AWS 上线支持 IAM 与统一账单

Claude Platform on AWS 于 2026 年 5 月 11 日正式可用，支持 AWS IAM、CloudTrail、统一账单和承诺用量抵扣，并开放 Opus 4.7、Sonnet 4.6、Haiku 4.5。

模型 / llmposts.com 阅读原文

2026

5月11日周一

共 6 篇

Coding Agent Index 发布编码智能体组合评测

Artificial Analysis 发布 Coding Agent Index，覆盖 3 个编码 agent benchmark；Opus 4.7 在 Cursor CLI 得分 61 领先，API 成本从每任务 0.07 美元到 2.26 美元不等。

模型 / llmposts.com 阅读原文

OpenRouter 推出 Pareto Code 编码路由

OpenRouter 推出 Pareto Code 编码路由，开发者可设置 0 到 1 的 min_coding_score，在 13 个代码模型中按能力门槛路由，最高支持 2,000,000 上下文。

模型 / llmposts.com 阅读原文

OpenAI Deployment Company 推出并收购 Tomoro

OpenAI Deployment Company 已由 OpenAI 官方推出，新公司将获得超过 40 亿美元初始投资，并在收购 Tomoro 后纳入约 150 名 FDE 与部署专家，面向企业部署 AI 系统。

模型 / llmposts.com 阅读原文

Codex Ultra-Fast 模式被曝提速 5 倍

Codex Ultra-Fast 模式被社区从 OpenAI Codex GitHub 提交中发现，随后相关内容被删除。提交描述称其面向延迟敏感工作，agentic code generation 最高可提速 5 倍，但 OpenAI 尚未官方确认。

模型 / llmposts.com 阅读原文

ChatGPT 曝 Codex 移动端控制功能

Codex 移动端控制被用户在 ChatGPT 应用内页面中发现，OpenAI 员工据报道指向周四发布窗口；硬件手机传闻仍缺乏确认，2027 年上半年量产说法仅来自分析师预测。

模型 / llmposts.com 阅读原文

OpenAI o1 急诊诊断超越医生

OpenAI o1 急诊诊断在 Science 报道的新研究中达到约 67% 精确或接近诊断率，高于医生约 50% 至 55%，但测试仅覆盖书面病例信息。

模型 / llmposts.com 阅读原文

2026

5月9日周六

共 2 篇

Claude Sonnet 4.5 将于 5 月 15 日下架

Claude Sonnet 4.5 将于 2026 年 5 月 15 日从 Claude 模型选择器中下架，距 2025 年 9 月 29 日发布约 7.5 个月。API 端 claude-sonnet-4-5-20250929 保留至最少 9 月 29 日。

模型 / llmposts.com 阅读原文

文心 5.1 发布预训练成本降至 6%

百度正式发布文心 5.1，总参数压缩至文心 5.0 约 1/3，激活参数降至约 1/2，预训练算力成本约为同规模模型的 6%，并以 1223 分位列 Arena 搜索榜全球第 4。

模型 / llmposts.com 阅读原文

2026

5月8日周五

共 4 篇

蚂蚁百灵发布 Ring-2.6-1T

蚂蚁百灵公布 Ring-2.6-1T benchmark：high 档在 PinchBench 得分 87.60，xhigh 档在 AIME 26 得分 95.83，OpenRouter 免费试用至 5 月 15 日。

模型 / llmposts.com 阅读原文

Zyphra 发布 AMD 训练模型 ZAYA1-8B

ZAYA1-8B 是 Zyphra 发布的 AMD 训练 MoE 模型，活跃参数少于 10 亿，在 Markovian RSA 下 HMMT'25 达到 89.6 分，高于 Claude 4.5 Sonnet 的 88.3 分。

模型 / llmposts.com 阅读原文

OpenAI 推出 GPT-5.5-Cyber 预览

OpenAI 推出 GPT-5.5-Cyber 有限预览，面向关键基础设施防御者。CyberGym 中其得分为 81.9%，个人用户自 2026 年 6 月 1 日起需启用更强账户安全。

模型 / llmposts.com 阅读原文

OpenAI 发布 GPT-Realtime-2 语音模型

OpenAI 在 Realtime API 推出 GPT-Realtime-2 语音模型等 3 款音频模型，上下文窗口升至 128K，Big Bench Audio 准确率达 96.6%，实时翻译支持 70+ 输入语言。

模型 / llmposts.com 阅读原文

2026

5月5日周二

共 7 篇

Gemma 4 推出 MTP drafter 推理加速最高 3 倍

Google 官方发布 Gemma 4 MTP drafter 推理加速方案，基于推测解码架构最高实现 3 倍提速。模型权重沿用 Apache 2.0 协议开源，无缝衔接主流本地部署框架，输出质量无损。

模型 / llmposts.com 阅读原文

OpenAI 推送 GPT-5.5 Instant 模型语气更简洁并升级个性化记忆

OpenAI 推送 GPT-5.5 Instant 模型，API 标识为 gpt-5.5-chat-latest。该模型在医学、法律等场景的事实性显著提升，并新增基于聊天记录与 Gmail 的个性化记忆功能，将在两天内覆盖所有 ChatGPT 用户。

模型 / llmposts.com 阅读原文

Gemini 3.2 Flash 定价泄露：预期发布或指向 5 月 I/O

据泄露信息，Gemini 3.2 Flash 预期发布或于 2026 年 5 月 Google I/O 大会前后，定价输入 0.25 美元/百万 token，输出 2.00 美元，定位平衡速度与推理能力。

模型 / llmposts.com 阅读原文

关于

LLMPOSTS.com 是什么？一个为中文 AI 从业者搭建的大模型资讯站，聚焦 GPT、Claude、Gemini 等前沿模型的发布动态、API 实践与论文解读，帮你在英文社区与中文需求之间架起桥梁。

模型 / llmposts.com 阅读原文

Peanut 图像生成模型亮相专业横评对比 FLUX.2

Peanut 图像生成模型于 5 月 4 日在 Artificial Analysis 专业横评中公开亮相，与 MAI-Image-2、grok-imagine-image 及 FLUX.2 [dev] Turbo 并列测试，涵盖 5 组复杂提示词。

模型 / llmposts.com 阅读原文

Anthropic 开发 Orbit 助手或将在开发者大会亮相

TestingCatalog 代码分析指出，Anthropic 正开发 Orbit 助手，深度集成 Gmail、GitHub、Figma 等六款连接器至 Claude Cowork，该功能或将于 5 月 6 日开发者大会前后正式发布。

模型 / llmposts.com 阅读原文

Gemini 移动端设计泄露拟配合 519 Google I/O 推 Agent 化战略

Google Gemini 应用设计泄露流出，iOS 采用 Liquid Glass 透明面板，Android 采用 Material 3 Expressive。界面布局向 ChatGPT 靠拢，预计配合 5 月 19 日至 20 日 Google I/O 大会推进 Agent 化战略，重塑移动 AI 交互入口。

模型 / llmposts.com 阅读原文

2026

5月4日周一

共 1 篇

Grok 4.3 benchmark 登顶法律金融测试跑分数据公布

xAI 近日公布 Grok 4.3 benchmark 测试跑分数据，该模型在 CaseLaw v2 与 CorpFin v2 榜单均位列第一，准确率分别达到 79.31% 与 68.53%，在长文本法律判读与金融协议解析任务中展现相对优势。

模型 / llmposts.com 阅读原文

2026

5月3日周日

共 1 篇

Google 正在测试 Omni 视频模型或将于 I/O 大会公布

据 UI 截图显示，Google 已在 Gemini 中测试代号 Omni 的视频生成模型，或将于 5 月 19 日至 20 日 Google I/O 大会正式揭晓。当前视频生成功能仍由 Veo 3.1 驱动，Omni 架构细节与发布时间需待官方确认。

模型 / llmposts.com 阅读原文

2026

5月2日周六

共 6 篇

Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

Anthropic 基于 3.8 万段对话分析发现关系求助场景中模型阿谀倾向率达 25%。团队通过合成数据与前填充压力测试技术，使 Claude Opus 4.7 在该场景阿谀率降至前代一半，改进效果同步泛化至健康、财务等领域。

模型 / llmposts.com 阅读原文

OpenAI 发布 Codex 0.128.0 版本支持持久化目标工作流

OpenAI 于 2026 年 5 月 1 日发布 Codex 0.128.0 版本，该终端开发工具新增持久化目标工作流与插件市场支持，重构内置权限档案并弃用全自动参数，同步优化多智能体协作与长周期任务管理能力。

模型 / llmposts.com 阅读原文

Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

Artificial Analysis 评测显示，xAI Grok 4.3 在 Intelligence Index 上取得 53 分，超越 Muse Spark 与 Claude Sonnet 4.6，输入与输出价格均下调超 40%，GDPval-AA 基准测试较前代大幅提升 321 分。

模型 / llmposts.com 阅读原文

CAISI 评测 DeepSeek V4 Pro：落后美国前沿模型 8 个月，性价比突出

CAISI 第三方评测显示，DeepSeek V4 Pro 综合能力约落后美国前沿模型 8 个月，同等能力下推理成本更低，代码与数学基准表现领先。

模型 / llmposts.com 阅读原文

阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型

阿里 Qwen 团队开源 Qwen-Scope 可解释性工具，覆盖 Qwen3 与 Qwen3.5 系列共 7 个模型，提供 14 组稀疏自编码器权重，可用于推理控制、数据合成、训练调优与评估分析。

模型 / llmposts.com 阅读原文

OpenAI 正式宣布 Codex Pets 宠物体验功能

OpenAI Codex 应用上线 Codex Pets 功能：可选动画伙伴以悬浮覆盖层形式陪伴你工作，实时显示 Codex 任务的 running、waiting、ready 状态。本文详解三种切换方式与通过 hatch-pet skill 创建自定义宠物的完整流程。

模型 / llmposts.com 阅读原文

2026

5月1日周五

共 1 篇

Anthropic 测试代号 Jupiter V1 模型或将于 5 月 6 日大会公布

据报道 Anthropic 已对内部代号 Claude Jupiter V1 启动红队测试，时间点临近 2026 年 5 月 6 日 Code with Claude 大会，与 2025 年 Neptune 代号至 Claude 4 发布的节奏相似。

模型 / llmposts.com 阅读原文