AI 周报 - 20260520
本周三件事值得跟:Anthropic 公布 Opus 4.7 的 1M 上下文能力实测;OpenAI o4 内部 benchmark 泄漏;Mistral 在欧盟监管框架下首批拿到 GPAI Tier-2 合规标签。
本周一句话
Opus 4.7 把 1M 上下文做”可用”了——不是”装得下”那种 1M,是召回 96% 的那种 1M [1][2]。这意味着 RAG 之外又开了一条”全部塞进去”的产品路径,对 doc-heavy 企业场景影响最大。
模型层
Anthropic 发布 Claude Opus 4.7,主打 1M context window + 召回质量 [1]。Cohere 实验室复测 RULER 1M benchmark 得到 96.3% 的 needle-in-haystack 准确度,是首次有公开模型越过 95% [2]——这条线之前是”上下文宣传 vs 实际能用”的分水岭。
The Information 拿到 OpenAI o4 内部 benchmark 截图,AIME-25 数学奥赛得分较 o3 提升 17 pp [3]。如果属实,o4 在前沿推理这一支会重新拉开身位。注意:内部 benchmark ≠ 发布版本,且未注明 cot budget。
DeepSeek-V4 在 LMSYS Chatbot Arena 的 reasoning 子榜以匿名 ID bouvardia-r2 短暂登顶 [6]。中文社区已基本确认是 DeepSeek 新版。
监管 & 合规
Mistral 在欧盟 AI Office 的 GPAI Tier-2 评审中通过,是欧洲首家拿到该等级合规标签的前沿厂商 [4]。Tier-2 要求覆盖模型卡完整性、第三方红队报告、训练数据来源声明三项 [5]。下半年 Tier-2 会变强制条件,影响美国厂商在 EU 的发布节奏。
算力
SemiAnalysis 周报披露,NVIDIA Blackwell-2 的批量出货时间从 Q2 押后到 Q3,主因是 CoWoS-L 良率问题 [7]。三大云厂商已开始重排 2026 训练集群上架计划,AWS / Azure 转向更激进的 H200 续约。
应用层
Anthropic 对企业客户开放 Computer Use beta [8]——这是首次有主流厂商把”agentic 屏幕操作”作为带 SLA 的 enterprise 产品出。客户限于 Bedrock / direct API 月消费 ≥ USD 5k 的账户。
投入产出
Sequoia 更新 AI capex-revenue gap 测算,年化口径下 capex 已比可归因 AI revenue 多出约 6000 亿美元 [9]。但他们的结论比去年更乐观:“gap is real but recoverable in 36-48 months if inference unit-cost continues compounding -45%/yr”。
生态
Hugging Face 整理了 mid-2026 各家 open-weight 商用许可现状 [10]:明确允许商用的有 Llama / Mistral / Qwen / DeepSeek,模糊(带 Acceptable Use Policy 兜底)的有 Gemma / Falcon。
引用源
- 93 [1] Anthropic releases Claude Opus 4.7 with 1M context window 阅读原文 ↗
- 89 [2] Long-context retrieval accuracy crosses 96% on RULER 1M benchmark 阅读原文 ↗
- 87 [3] Leaked: OpenAI o4 internal benchmark shows step-change on AIME-25 阅读原文 ↗
- 85 [4] Mistral becomes first European frontier lab to clear GPAI Tier-2 compliance 阅读原文 ↗
- 83 [5] What GPAI Tier-2 actually requires - documentation, eval, red-team 阅读原文 ↗
- 81 [6] DeepSeek-V4 quietly tops Chatbot Arena reasoning leaderboard 阅读原文 ↗
- 80 [7] NVIDIA Blackwell-2 supply pulled back to Q3, hyperscalers re-plan 阅读原文 ↗
- 78 [8] Anthropic's Computer Use is now available in beta to enterprise tier 阅读原文 ↗
- 76 [9] Sequoia: AI capex still pacing ahead of revenue, gap widens to USD 600B 阅读原文 ↗
- 74 [10] Open-source weight licensing: a tally of who allows commercial use mid-2026 阅读原文 ↗