Gemini 3.2 Flash 将更名为 Gemini 3.5 Flash,内部参数已曝光
谷歌或推出重命名版 Gemini 3.5 Flash 模型,定价泄露至 0.25 美元每百万 token 且响应延迟传闻压至 200 毫秒内,性能逼近 Pro 级水平,预计 5 月前后亮相。
阅读原文谷歌或推出重命名版 Gemini 3.5 Flash 模型,定价泄露至 0.25 美元每百万 token 且响应延迟传闻压至 200 毫秒内,性能逼近 Pro 级水平,预计 5 月前后亮相。
阅读原文百万行 monorepo 环境中决定工具效率的关键并非基准跑分,而是工程配置层。掌握 CLAUDE.md 分层、Hooks 等技巧,构建稳定高效的 Claude Code 部署模式。
阅读原文OpenAI 供应链攻击事件曝光,TeamPCP 通过恶意 npm 包入侵两名员工设备。为阻断潜在恶意代码分发,官方强制 macOS 用户在 2026 年 6 月 12 日前完成应用更新,核心业务与客户数据未受影响。
阅读原文OpenAI 宣布 Codex 接入 ChatGPT 移动应用,iOS 与 Android 预览版已向所有套餐用户开放。支持远程 SSH 连接与实时状态同步,Windows 版手机连接支持即将推出。
阅读原文Kimi Web Bridge 浏览器扩展发布,支持 Claude Code、Cursor、Codex 等 AI Agent 通过 Chrome DevTools Protocol 操控本地浏览器。据官方文档,该工具采用本地桥接架构,登录状态与网页内容不上传云端,适用于电商比价、批量表单填写等重复性网页操作。
阅读原文蚂蚁百灵开源 Ring-2.6-1T 万亿参数思考模型,采用 IcePop 异步强化学习算法。该模型在 PinchBench 与 SWE-Bench 等 benchmark 中表现突出,支持 high 与 xhigh 两种推理力度,面向复杂企业自动化与长程任务部署。
阅读原文据 Ramp AI Index,Anthropic 企业采用率 4 月升至 34.4%,首次超过 OpenAI 的 32.3%。过去一年 Anthropic 企业采用率增长约 4 倍,但分析师指出其面临成本上涨与服务质量下滑三重逆风。
阅读原文Google I/O 前夕,社交媒体爆料显示 Gemini Spark Agent 或将作为 24/7 AI 助手发布。据披露,该 Agent 支持从用户行为中学习,可调用 Connected Apps 与第三方服务集成。
阅读原文OpenAI 宣布针对计划切换的企业客户提供激励政策。签约即送 2 个月免费 OpenAI Codex 企业推广额度。活动持续至 6 月中旬,旨在与 Anthropic 争夺开发者市场。
阅读原文OpenAI 详细公开了 Codex 编码智能体在 Windows 平台的沙箱实现路径。该方案历经非提权与提权架构迭代,通过合成 SID、受限 token 与专属防火墙规则,在保障系统隔离的同时保留了智能体对开发者环境的读写兼容性。
阅读原文Anthropic 正式公布 Claude computer use 最佳实践,明确 1280x720 默认配置与 3.75M 像素硬性上限,完整拆解点击精度对齐、自适应思考阈值调度及工作流录制回放架构。
阅读原文6 月 15 日起 Claude 订阅套餐将引入 Claude Agent SDK 月度额度,Pro 套餐 $20 起,隔离交互与程序化计费,规避自动化脚本抢占订阅限额。
阅读原文Anthropic 宣布 Claude Code 周使用限额临时提升 50%,覆盖 Pro、Max、Team 及企业用户,有效期至 7 月 13 日,可与上周 2 倍时长上限叠加生效。
阅读原文Anthropic 收购 Stainless 的谈判被曝进入后期,The Information 称金额至少 3 亿美元;Stainless 为 OpenAI、谷歌和 Anthropic 提供 SDK、API 文档与 agent 接口。
阅读原文Anthropic 推出 20 余个 MCP 连接器与 12 个专业 Claude 法律插件,深度整合 Microsoft 办公套件及合同、研究等核心系统,底层依托 Opus 4.7 模型提升文书自动化处理效率。
阅读原文吴恩达 AI jobapalooza 预测指出现阶段美国失业率仅为 4.3%,反驳 AI 引发大规模失业的恐慌叙事。本文剖析前沿实验室夸大技术影响力的商业动机,并探讨劳动力市场转型路径。
阅读原文亚马逊部署内部 AI 智能体平台 MeshClaw 工具后,员工面临超 80% 开发者周使用目标与内部分数排行榜压力,出现为刷 token 量自动化非必要任务的现象。两千亿美元资本开支背景下,企业 AI 工具推广与安全权限治理面临行业共性挑战。
阅读原文Claude Opus 4.7 fast mode 已在 API 与 Claude Code 开放 research preview,官方称速度为 2.5 倍,价格为输入 30 美元/MTok、输出 150 美元/MTok。
阅读原文Google 提出基于 Gemini 的 AI 指针交互新范式,通过深层意图理解实现跨应用无缝调用。该设计已集成至 Chrome 浏览器及新款 Googlebook 中,开启自然语音与指向结合的交互时代。
阅读原文Arena 模型排名显示五大主流前沿模型能力分化。Claude Opus 4.7 在主要评测类别占据榜首,Gemini 3.1 Pro 与 GPT-5.5 High 紧随其后,展现各厂商在推理与创意任务上的技术权衡。
阅读原文Interfaze模型发布全新混合架构,融合CNN与Transformer。官方公布9项基准测试成绩,光学字符识别与结构化输出准确率领先同级闪省模型,定价为1.50美元每百万输入标记。
阅读原文DigitalOcean 最新基准测试显示,vLLM 登顶 Artificial Analysis 推理排行榜,DeepSeek V3.2 输出吞吐达 230 TPS 且 Qwen 3.5 397B TTFT 低于 1 秒,多项内核优化已合入主线。
阅读原文MiniCPM-V 4.6 1.3B 在 Artificial Analysis Intelligence Index 上得分 13,并以 5.4M 输出 token 完成评测,支持文本、图像与视频输入,采用 Apache 2.0 许可证。
阅读原文Anthropic 于 2026 年 5 月 11 日推出 Claude Code agent view,支持在 CLI 中集中管理并行会话,现以 Research Preview 向 Pro、Max、Team、Enterprise 和 Claude API 计划开放。
阅读原文Claude Platform on AWS 于 2026 年 5 月 11 日正式可用,支持 AWS IAM、CloudTrail、统一账单和承诺用量抵扣,并开放 Opus 4.7、Sonnet 4.6、Haiku 4.5。
阅读原文Artificial Analysis 发布 Coding Agent Index,覆盖 3 个编码 agent benchmark;Opus 4.7 在 Cursor CLI 得分 61 领先,API 成本从每任务 0.07 美元到 2.26 美元不等。
阅读原文OpenRouter 推出 Pareto Code 编码路由,开发者可设置 0 到 1 的 min_coding_score,在 13 个代码模型中按能力门槛路由,最高支持 2,000,000 上下文。
阅读原文OpenAI Deployment Company 已由 OpenAI 官方推出,新公司将获得超过 40 亿美元初始投资,并在收购 Tomoro 后纳入约 150 名 FDE 与部署专家,面向企业部署 AI 系统。
阅读原文Codex Ultra-Fast 模式被社区从 OpenAI Codex GitHub 提交中发现,随后相关内容被删除。提交描述称其面向延迟敏感工作,agentic code generation 最高可提速 5 倍,但 OpenAI 尚未官方确认。
阅读原文Codex 移动端控制被用户在 ChatGPT 应用内页面中发现,OpenAI 员工据报道指向周四发布窗口;硬件手机传闻仍缺乏确认,2027 年上半年量产说法仅来自分析师预测。
阅读原文OpenAI o1 急诊诊断在 Science 报道的新研究中达到约 67% 精确或接近诊断率,高于医生约 50% 至 55%,但测试仅覆盖书面病例信息。
阅读原文Claude Sonnet 4.5 将于 2026 年 5 月 15 日从 Claude 模型选择器中下架,距 2025 年 9 月 29 日发布约 7.5 个月。API 端 claude-sonnet-4-5-20250929 保留至最少 9 月 29 日。
阅读原文百度正式发布文心 5.1,总参数压缩至文心 5.0 约 1/3,激活参数降至约 1/2,预训练算力成本约为同规模模型的 6%,并以 1223 分位列 Arena 搜索榜全球第 4。
阅读原文蚂蚁百灵公布 Ring-2.6-1T benchmark:high 档在 PinchBench 得分 87.60,xhigh 档在 AIME 26 得分 95.83,OpenRouter 免费试用至 5 月 15 日。
阅读原文ZAYA1-8B 是 Zyphra 发布的 AMD 训练 MoE 模型,活跃参数少于 10 亿,在 Markovian RSA 下 HMMT'25 达到 89.6 分,高于 Claude 4.5 Sonnet 的 88.3 分。
阅读原文OpenAI 推出 GPT-5.5-Cyber 有限预览,面向关键基础设施防御者。CyberGym 中其得分为 81.9%,个人用户自 2026 年 6 月 1 日起需启用更强账户安全。
阅读原文OpenAI 在 Realtime API 推出 GPT-Realtime-2 语音模型等 3 款音频模型,上下文窗口升至 128K,Big Bench Audio 准确率达 96.6%,实时翻译支持 70+ 输入语言。
阅读原文Google 官方发布 Gemma 4 MTP drafter 推理加速方案,基于推测解码架构最高实现 3 倍提速。模型权重沿用 Apache 2.0 协议开源,无缝衔接主流本地部署框架,输出质量无损。
阅读原文OpenAI 推送 GPT-5.5 Instant 模型,API 标识为 gpt-5.5-chat-latest。该模型在医学、法律等场景的事实性显著提升,并新增基于聊天记录与 Gmail 的个性化记忆功能,将在两天内覆盖所有 ChatGPT 用户。
阅读原文据泄露信息,Gemini 3.2 Flash 预期发布或于 2026 年 5 月 Google I/O 大会前后,定价输入 0.25 美元/百万 token,输出 2.00 美元,定位平衡速度与推理能力。
阅读原文Peanut 图像生成模型于 5 月 4 日在 Artificial Analysis 专业横评中公开亮相,与 MAI-Image-2、grok-imagine-image 及 FLUX.2 [dev] Turbo 并列测试,涵盖 5 组复杂提示词。
阅读原文TestingCatalog 代码分析指出,Anthropic 正开发 Orbit 助手,深度集成 Gmail、GitHub、Figma 等六款连接器至 Claude Cowork,该功能或将于 5 月 6 日开发者大会前后正式发布。
阅读原文Google Gemini 应用设计泄露流出,iOS 采用 Liquid Glass 透明面板,Android 采用 Material 3 Expressive。界面布局向 ChatGPT 靠拢,预计配合 5 月 19 日至 20 日 Google I/O 大会推进 Agent 化战略,重塑移动 AI 交互入口。
阅读原文xAI 近日公布 Grok 4.3 benchmark 测试跑分数据,该模型在 CaseLaw v2 与 CorpFin v2 榜单均位列第一,准确率分别达到 79.31% 与 68.53%,在长文本法律判读与金融协议解析任务中展现相对优势。
阅读原文据 UI 截图显示,Google 已在 Gemini 中测试代号 Omni 的视频生成模型,或将于 5 月 19 日至 20 日 Google I/O 大会正式揭晓。当前视频生成功能仍由 Veo 3.1 驱动,Omni 架构细节与发布时间需待官方确认。
阅读原文Anthropic 基于 3.8 万段对话分析发现关系求助场景中模型阿谀倾向率达 25%。团队通过合成数据与前填充压力测试技术,使 Claude Opus 4.7 在该场景阿谀率降至前代一半,改进效果同步泛化至健康、财务等领域。
阅读原文OpenAI 于 2026 年 5 月 1 日发布 Codex 0.128.0 版本,该终端开发工具新增持久化目标工作流与插件市场支持,重构内置权限档案并弃用全自动参数,同步优化多智能体协作与长周期任务管理能力。
阅读原文Artificial Analysis 评测显示,xAI Grok 4.3 在 Intelligence Index 上取得 53 分,超越 Muse Spark 与 Claude Sonnet 4.6,输入与输出价格均下调超 40%,GDPval-AA 基准测试较前代大幅提升 321 分。
阅读原文CAISI 第三方评测显示,DeepSeek V4 Pro 综合能力约落后美国前沿模型 8 个月,同等能力下推理成本更低,代码与数学基准表现领先。
阅读原文阿里 Qwen 团队开源 Qwen-Scope 可解释性工具,覆盖 Qwen3 与 Qwen3.5 系列共 7 个模型,提供 14 组稀疏自编码器权重,可用于推理控制、数据合成、训练调优与评估分析。
阅读原文OpenAI Codex 应用上线 Codex Pets 功能:可选动画伙伴以悬浮覆盖层形式陪伴你工作,实时显示 Codex 任务的 running、waiting、ready 状态。本文详解三种切换方式与通过 hatch-pet skill 创建自定义宠物的完整流程。
阅读原文据报道 Anthropic 已对内部代号 Claude Jupiter V1 启动红队测试,时间点临近 2026 年 5 月 6 日 Code with Claude 大会,与 2025 年 Neptune 代号至 Claude 4 发布的节奏相似。
阅读原文