AI 周报 - 20260520

发布于

AI科技大模型

本周三件事值得跟:Anthropic 公布 Opus 4.7 的 1M 上下文能力实测;OpenAI o4 内部 benchmark 泄漏;Mistral 在欧盟监管框架下首批拿到 GPAI Tier-2 合规标签。

本周一句话

Opus 4.7 把 1M 上下文做”可用”了——不是”装得下”那种 1M,是召回 96% 的那种 1M [1][2]。这意味着 RAG 之外又开了一条”全部塞进去”的产品路径,对 doc-heavy 企业场景影响最大。

模型层

Anthropic 发布 Claude Opus 4.7,主打 1M context window + 召回质量 [1]。Cohere 实验室复测 RULER 1M benchmark 得到 96.3% 的 needle-in-haystack 准确度,是首次有公开模型越过 95% [2]——这条线之前是”上下文宣传 vs 实际能用”的分水岭。

The Information 拿到 OpenAI o4 内部 benchmark 截图,AIME-25 数学奥赛得分较 o3 提升 17 pp [3]。如果属实,o4 在前沿推理这一支会重新拉开身位。注意:内部 benchmark ≠ 发布版本,且未注明 cot budget。

DeepSeek-V4 在 LMSYS Chatbot Arena 的 reasoning 子榜以匿名 ID bouvardia-r2 短暂登顶 [6]。中文社区已基本确认是 DeepSeek 新版。

监管 & 合规

Mistral 在欧盟 AI Office 的 GPAI Tier-2 评审中通过,是欧洲首家拿到该等级合规标签的前沿厂商 [4]。Tier-2 要求覆盖模型卡完整性、第三方红队报告、训练数据来源声明三项 [5]。下半年 Tier-2 会变强制条件,影响美国厂商在 EU 的发布节奏。

算力

SemiAnalysis 周报披露,NVIDIA Blackwell-2 的批量出货时间从 Q2 押后到 Q3,主因是 CoWoS-L 良率问题 [7]。三大云厂商已开始重排 2026 训练集群上架计划,AWS / Azure 转向更激进的 H200 续约。

应用层

Anthropic 对企业客户开放 Computer Use beta [8]——这是首次有主流厂商把”agentic 屏幕操作”作为带 SLA 的 enterprise 产品出。客户限于 Bedrock / direct API 月消费 ≥ USD 5k 的账户。

投入产出

Sequoia 更新 AI capex-revenue gap 测算,年化口径下 capex 已比可归因 AI revenue 多出约 6000 亿美元 [9]。但他们的结论比去年更乐观:“gap is real but recoverable in 36-48 months if inference unit-cost continues compounding -45%/yr”。

生态

Hugging Face 整理了 mid-2026 各家 open-weight 商用许可现状 [10]:明确允许商用的有 Llama / Mistral / Qwen / DeepSeek,模糊(带 Acceptable Use Policy 兜底)的有 Gemma / Falcon。

引用源

  1. 93 [1] Anthropic releases Claude Opus 4.7 with 1M context window Anthropic Blog 阅读原文 ↗
  2. 89 [2] Long-context retrieval accuracy crosses 96% on RULER 1M benchmark Lab Notes - Cohere 阅读原文 ↗
  3. 87 [3] Leaked: OpenAI o4 internal benchmark shows step-change on AIME-25 The Information 阅读原文 ↗
  4. 85 [4] Mistral becomes first European frontier lab to clear GPAI Tier-2 compliance Reuters 阅读原文 ↗
  5. 83 [5] What GPAI Tier-2 actually requires - documentation, eval, red-team EU AI Office Briefing 阅读原文 ↗
  6. 81 [6] DeepSeek-V4 quietly tops Chatbot Arena reasoning leaderboard LMSYS 阅读原文 ↗
  7. 80 [7] NVIDIA Blackwell-2 supply pulled back to Q3, hyperscalers re-plan SemiAnalysis 阅读原文 ↗
  8. 78 [8] Anthropic's Computer Use is now available in beta to enterprise tier TechCrunch 阅读原文 ↗
  9. 76 [9] Sequoia: AI capex still pacing ahead of revenue, gap widens to USD 600B Sequoia Capital Perspectives 阅读原文 ↗
  10. 74 [10] Open-source weight licensing: a tally of who allows commercial use mid-2026 Hugging Face Blog 阅读原文 ↗