AI 日报 | 2026-05-12 | Tony‘s BLOG

type

Post

status

Published

date

May 12, 2026

slug

ai-daily-2026-05-12

summary

Amazon Bedrock AgentCore 上线 agent 支付能力（Coinbase/Stripe）+ Alibaba 把 Qwen 嵌入 Taobao 全交易链 = agentic commerce 正式进入生产；UC Berkeley 一份审计报告把 SWE-bench / Terminal-Bench 这一类 agent benchmark 全部曝出 exploit 漏洞，整个 leaderboard 文化要被重写。视觉侧 UniVidX 用单模型统一 video generation/understanding；VAIR 把 3D pose + biomechanics 接到普通 sport video 上做受伤风险分析，对攀岩动作分析 app 是非常直接的迁移点。

一、今日最重要的 5 条

1. Amazon Bedrock AgentCore Payments 预览上线 —— agent 第一次可以自己花钱

5 月 11 日 AWS 宣布 Bedrock AgentCore 接入首批 managed payment 能力：agent 可以自主调用并支付 API、MCP server、网页内容、其它 agent。和 Coinbase、Stripe 联合搭建，支持 CDP wallet / Stripe Privy wallet，session 级支出上限可配。

为什么重要：这是 "agentic commerce" 从理论到生产的临界点。之前的 agent 是 "我帮你看"，现在是 "我帮你买/付/订"。billing + credential + 合规这层被官方扛走，意味着 small team 可以做出真正 transactional 的 agent。

对我有什么关系：攀岩 app 想做 "自动订场地 / 自动续费教练订阅" 这类场景，现在工程门槛被拉到与做个 Stripe checkout 差不多。同时，求职 / portfolio 里 "transactional agent" 是接下来 6 个月的明显风口。

出处（2026-05-11）：AWS Weekly Roundup — AgentCore Payments

2. Alibaba 把 Qwen 嵌进 Taobao/Tmall 全交易链路

5 月 10 日 Alibaba 正式把 Qwen 集成进 Taobao/Tmall，Qwen app 可以访问 4B+ SKU，且作为 "shopping intermediary" 参与交易过程，而不仅是搜索助手。

为什么重要：和 #1 形成呼应——西边 AWS 给 agent 装钱包，东边 Alibaba 把 agent 装进国内最大电商。两者一起把 "agent 真的能完成购买" 这件事从 demo 推到日常基础设施。

对我有什么关系：明确告诉你 "AI 套壳应用没人要，垂直场景 + 完整交易闭环才有商业价值"。你的攀岩 app 要往 "训练计划 + 课程 + 装备推荐" 一条龙考虑，而不是停在 "识别动作 + 给建议"。

出处（2026-05-10）：Crescendo — Latest AI News · Mean CEO — AI Product Launches May 2026

3. UC Berkeley：SWE-bench / Terminal-Bench / GAIA 这一批 agent benchmark 几乎都能被 exploit

UC Berkeley CLTC / RDI 的 "Trustworthy Benchmarks" 报告显示：一个自动审计 agent 系统性扫描了 8 个最主流的 agent benchmark，全都能通过非解题方式刷到接近满分（Terminal-Bench 上 89 个任务直接 100%）。这周仍在持续被讨论。

为什么重要：之前所有 "我们家模型在 X-bench 上 SOTA" 的叙事都要打折。leaderboard 数字本身的可信度被系统性动摇，从今往后 "agent 评估" 必须配 contamination check + adversarial audit。

对我有什么关系：① 面试里别再 quote SWE-bench 数字当卖点；② 你自己的攀岩 app 评估系统从一开始就要设计成 audit-friendly（hold-out 视频、跨用户 split、对抗样本）。

出处：Berkeley RDI — How We Broke Top AI Agent Benchmarks · SWE-bench Verified Leaderboard 2026

4. SWE-bench Verified 当前榜：Claude Mythos Preview 93.9% / Opus 4.7 (Adaptive) 87.6% / GPT-5.3 Codex 85%

截至 5 月 7 日，Anthropic 的 "Mythos Preview"（Project Glasswing 的核心模型，主打 security & code 双能力）拉到 93.9%；Opus 4.7 配 Adaptive 模式 87.6%；GPT-5.3 Codex 85%。考虑到 #3 的 exploit 问题，这些数字本身要打折看，但相对排序仍然有指示作用。

为什么重要：Anthropic 在 "找 bug / 找漏洞 / 写复杂 patch" 这条窄赛道明显领先。这是 Anthropic 把模型差异化打成 "安全 + 工程" 的延续。

对我有什么关系：你做 coding agent 相关 side project，默认就用 Opus 4.7 / Mythos Preview，不必再 A/B 测三家。

出处：BenchLM — SWE-bench Verified 2026 · llm-stats — Terminal-Bench Leaderboard

5. UniVidX：用单一 diffusion 模型统一 video generation + perception

SIGGRAPH 2026 / TOG 论文，UniVidX 用 Stochastic Condition Masking (SCM) + Decoupled Gated LoRA (DGL) + Cross-Modal Self-Attention (CMSA)，让一套权重同时做 text-to-video、image-to-video、video editing、video understanding 任务。代码已开源。

为什么重要：过去做视频应用要拼 3-4 个模型（生成一个、理解一个、检索一个），UniVidX 提出了 "一套底座、任务用 mask 控制" 的范式，是未来 video stack 的一种重要可能。

对我有什么关系：攀岩 app 后期想做 "动作可视化 / 演示理想动作"（generation）+ "识别用户动作"（understanding）时，参考它的 SCM 思路可以让一个 backbone 顶两个任务。

出处：GitHub — UniVidX (SIGGRAPH 2026)

二、按目标分类

A. 前沿模型 / 一手发布

A1. Claude Mythos Preview（Anthropic Project Glasswing）

事件：Anthropic 限量灰度 Claude Mythos Preview，强调识别软件弱点 / 安全漏洞 / 复杂 patch 生成。

核心内容：在 SWE-bench Verified 拿到 93.9%（榜首），定位 "security + serious engineering"。

为什么重要：Anthropic 把 model differentiation 进一步收窄到 "做难活、做安全"，与 Opus 4.7 区分使用场景。

我需不需要点开：需要，作为攀岩 app 后端复杂 refactor 的兜底模型选项。

链接：BenchLM — SWE-bench Verified · Crescendo — AI News

A2. UniVidX（SIGGRAPH 2026 / TOG）

事件：开源统一多模态视频 diffusion 框架，覆盖 generation + understanding。

核心内容：SCM mask 控制任务 / DGL 解耦不同任务的能力路径 / CMSA 跨模态自注意力。

为什么重要："一套 backbone 顶多任务" 是视频领域的工程红利。

我需不需要点开：需要，特别是看 mask 设计如何切换任务的章节。

链接：GitHub UniVidX

A3. Amazon Bedrock AgentCore Payments（平台层）

事件：托管 agent 自主支付（Coinbase / Stripe），session-level spending limit。

核心内容：billing + credential + 合规 + 钱包对接打包成服务。

为什么重要：agentic commerce 的官方基础设施落地。

我需不需要点开：需要，作为 "transactional agent" 求职/项目方向的参照。

链接：AWS Weekly Roundup 2026-05-11

A4. DAPPOS xBubble

事件：5 月 12 日发布的 "低 prompt" agent，把短指令翻译成可执行的 SOP（Bubble Engine）并调度给最合适的工具（Bubble Pilot）。

核心内容：尝试解决 "用户不愿意写长 prompt" 这个产品级问题。

为什么重要：方向对，但需要观察实际能力。今天属于 "热度高、价值待验证"。

我需不需要点开：可以扫一眼定位，不必深入。

链接：GlobeNewswire — DAPPOS xBubble

B. AI 工程 / Agent / Coding workflow

B1. Snyk × Claude / Opsera × Cursor —— security 进 IDE 的范式

内容：Anthropic Claude 接进 Snyk AI Security Platform；Opsera 把 DevSecOps agent 嵌进 Cursor，让代码生成的同时跑合规与安全检查。

可落地价值：把 "安全 review" 从 PR 阶段前移到 "敲键盘" 阶段。

对我当前开发/学习的意义：side project 也应该在 Cursor / Claude Code 里直接配 lint + secret-scan + SAST 的 agent，让 review 变成持续动作。

链接：SD Times — May 8 2026 Weekly

B2. Prismatic Skills for Claude Code（开源 plugin）

内容：把企业集成（CRM / ERP / 数据库）封装成 Claude Code 直接调用的 skill。

可落地价值：让 coding agent 不必每次现写 connector。

对我当前开发/学习的意义：写 plugin / skill 是 2026 求职市场新的可见技能点；可以照着 Prismatic 的结构给自己的攀岩 app 写一个内部 skill。

链接：SD Times — May 8 2026 Weekly

B3. Coder Agents（beta）—— 自托管的 agent 工程基建

内容：原生 agent 架构方案，企业可以在自托管基础设施上跑 AI-driven dev workflow，任选模型。

可落地价值：是 "Managed Agents 的反面"——给在意数据本地化的场景一个选项。

对我当前开发/学习的意义：求职准备里可以把 "Managed Agents vs Self-hosted Coder Agents vs OpenAI Agents SDK vs Google ADK" 横向对比，体现 infra 视角。

链接：SD Times — May 8 2026 Weekly

B4. Benchmark trust 危机 —— agent eval 的下一阶段

内容：Berkeley 审计组对 SWE-bench / Terminal-Bench / GAIA 等 8 个 benchmark 全部刷出 exploit。

可落地价值：你做的任何 eval 必须配 contamination check / hold-out / adversarial cases。

对我当前开发/学习的意义：自己 app 的评估体系要 audit-friendly。这一条写进项目 README 里能直接体现你的工程成熟度。

链接：Berkeley RDI — Trustworthy Benchmarks

C. 视觉 / 视频 / 运动人体分析

C1. VAIR：从 sport video 里重建 3D pose + biomechanics + 受伤风险

内容：从普通比赛视频出发，pose estimation + biomechanical simulation + visual analytics 三件套，输出 "关节级风险随时间演变"。无需 mocap 或穿戴设备。

与 "攀岩动作分析 app" 的相关性：极高。攀岩 app 的差异化卖点之一就是 "长期发力姿势 → 哪些关节会累积风险"。VAIR 给出了 ecologically valid 的范式。

可迁移到项目的点：① 受伤风险 / 错误发力的可视化做法 ② 用普通手机视频做 3D motion 重建的 pipeline ③ 报告输出风格（journal of joint stress over time）。

优先级：高。

链接：arXiv 2512.17446 VAIR

C2. SportSkills（360k 教学视频 + 630k 视觉示范 / 55 sports）

内容：第一个面向 "从教学视频中学物理技能" 的大规模 in-the-wild dataset，配有 instructional narration。

与 app 的相关性：高。攀岩教学视频结构上和 SportSkills 高度同构（示范动作 + 口播解释）。

可迁移到项目的点：① 直接用其攀岩相关子集做预训练 / 自监督；② 借鉴 narration-aligned 的标注格式；③ "动作 → 自然语言改进建议" 的对齐方式可以参考。

优先级：高。

链接：arXiv 2603.25163 SportSkills

C3. AthleticsPose（arXiv 2507.12905）

内容：真实田径场地的运动 pose 数据集，专门评估单目 3D pose estimation。

与 app 的相关性：中-高。攀岩同样需要 monocular 3D pose 在非典型姿态下能 work。

可迁移到项目的点：evaluation protocol 直接复用；可以作为 your-app 的 baseline 训练数据。

优先级：中。

链接：arXiv 2507.12905

C4. Multi-Camera Self-Calibration with Human + Stick（arXiv 2604.17567）

内容：用人体关键点 + 已知长度的 "棒状物"（球杆 / 球棒）做多相机自标定，无需专用工具。

与 app 的相关性：低-中。攀岩没有 "stick"，但 "已知尺寸的 hold" 可以充当类似 known-length constraint。

可迁移到项目的点：在攀岩馆里多机位采集时，hold 间距可以充当 calibration 基准。

优先级：低-中。

链接：arXiv 2604.17567

C5. NPoseC3D —— 含手部的骨架动作识别

内容：在 PoseC3D 基础上加入手部关键点的动作识别模型。

与 app 的相关性：高。攀岩动作中手指 / 手腕的细节几乎决定动作质量，常规 17-keypoint 模型严重欠采。

可迁移到项目的点：MVP 之后必须升级到 whole-body / hand-aware pose（RTMW、NPoseC3D 等）。

优先级：中-高。

链接：Springer — NPoseC3D

C6. UniVidX 的视觉理解侧

内容：除了 generation，UniVidX 在 video perception 上同样有完整路径。

与 app 的相关性：中。看它怎么 mask 切换 "理解" 任务，是否能用于动作分类。

可迁移到项目的点：单一 backbone 同时做 "识别用户动作" 与 "生成示范动作"。

优先级：中。

链接：GitHub UniVidX

D. 产品化 / 商业化 / 行业动态

D1. Agentic commerce 同时从两端落地（AWS AgentCore Payments + Alibaba Qwen × Taobao）

动态：agent 主动花钱、调 API、订服务的基建在西边由 AWS 提供，agent 帮人下单买东西的渠道在东边由 Alibaba 接管。

背后的趋势判断："agent 的下一个值钱场景是交易而非对话"。

对 side project / 求职 / 项目方向的启发：往交易 / 订阅 / 自动化运维 / 自动 reorder 等 "花钱型 agent" 方向倾斜。攀岩 app 可以考虑订场地、订课程、装备 reorder 一条龙。

链接：AWS — AgentCore Payments · Crescendo — Latest AI News

D2. Writer 报告：79% 高管承认 AI ROI 不及预期

动态：5 月 10 日 Writer 发布对 2,400 名知识工作者的调研，主要瓶颈是战略错位、内部权力博弈、采购缺乏闭环。

背后的趋势判断：企业 AI 不再是 "上线即胜利" 的阶段，进入 "算 ROI" 阶段，反而催生大量 "AI productivity audit / agent consulting" 机会。

对 side project / 求职 / 项目方向的启发：求职简历里有 "明确指标 + 可量化 ROI" 的项目权重在大幅上升。攀岩 app 要早早设计 "完成率提升 / 受伤率下降" 这类可量化指标。

链接：Crescendo — Latest AI News

D3. Printify ChatGPT App（5 月 10 日）

动态：在 ChatGPT 里直接 "想出 T 恤想法 → 设计 → 下单 → 寄送" 全流程。

背后的趋势判断：ChatGPT 不再是 chatbot，是 thin client，背后是各种 vertical merchant。

对 side project / 求职 / 项目方向的启发：side project 可以考虑做成 "ChatGPT 内嵌的小应用"，分发成本可能比独立 app 低一个量级。

链接：Mean CEO — AI Product Launches May 2026

D4. Trump 政府要求 Google / Microsoft / xAI 让 CAISI 做 pre-release 评估

动态：监管开始介入模型发布前评估流程。

背后的趋势判断：模型层逐步合规化，应用层创新空间反而更可控。

对 side project / 求职 / 项目方向的启发：做应用层而不是基础模型层是正确选择；垂直 + 合规友好的 agent 应用是中长期受益方。

链接：CNBC — Trump AI Oversight 2026-05-05

E. 学习价值 / 求职价值

E1. VAIR（受伤风险可视化）

内容：从普通视频重建 3D pose + biomechanics + 风险演变。

适合我怎么用：精读 + 把 "输出风险曲线" 的范式抄到攀岩 app。

推荐动作：① 精读 ② 整理一份 "如果把 VAIR 思路套到攀岩上，关节风险曲线长什么样" 的设计草图 ③ 在项目 README 里把这套作为 "long-term feature" 写进去。

链接：arXiv 2512.17446

E2. SportSkills（in-the-wild 多运动数据集）

内容：360k 教学视频、630k 示范、55 项运动，含 narration。

适合我怎么用：精读论文 + 看是否含攀岩子集，能直接用作 pre-training。

推荐动作：① 看 dataset card ② 写一篇短博客："如果用 SportSkills 做攀岩动作识别的迁移学习，会遇到哪些 challenge"。

链接：arXiv 2603.25163

E3. Berkeley Trustworthy Benchmarks 报告

内容：8 个主流 agent benchmark 全部可被 exploit。

适合我怎么用：精读，且把其方法论复用到自己 app 的 eval。

推荐动作：把 "contamination check / cross-user split / adversarial videos" 三条写进攀岩 app 的 evaluation plan。

链接：Berkeley RDI — Trustworthy Benchmarks

E4. UniVidX 代码

内容：单 backbone 多任务 video diffusion 的开源实现。

适合我怎么用：先读 README 与 SCM 实现，再决定是否复现。

推荐动作：clone + 跑通 demo + 在自己的攀岩视频上试一次 understanding 模式。

链接：GitHub UniVidX

三、今日高分 GitHub Repo

1. UniVidX

GitHub 链接：houyuanchen111/UniVidX

方向标签：vision / video / multimodal / diffusion

这项目是干什么的：SIGGRAPH 2026 论文官方代码，统一 video generation + perception 的 diffusion 框架。

为什么今天值得关注：SIGGRAPH 2026 中标论文且代码开源，是少数能让 single backbone 兼容 "理解 + 生成" 的实现。

与我的相关性：攀岩 app 后期 "识别动作 + 演示理想动作" 两件事可以共享一个 backbone。

上手成本：中-高（diffusion 模型训练成本不低，但 inference 可控）。

是否建议我收藏：是。

是否建议我复现：先跑 inference demo，训练阶段视显卡而定。

一句话判断：今年视频 stack 的潜在 reference 实现之一。

2. SWE-bench / SWE-bench Verified

GitHub 链接：SWE-bench/SWE-bench · Leaderboard

方向标签：agent / eval / coding

这项目是干什么的：以 GitHub 真实 issue 为基础的 coding agent 评估集，Verified 子集是更严格的人工核对版本。

为什么今天值得关注：在 Berkeley 报告之后，看怎么读这个 leaderboard 反而更有价值——这是判断模型差异的入门 lens。

与我的相关性：求职准备里几乎是必读的 benchmark 之一。

上手成本：中。

是否建议我收藏：是。

是否建议我复现：跑 1-2 个 task 体会评估流程即可。

一句话判断：理解 coding agent 评估的入门必读。

3. caramaschiHG/awesome-ai-agents-2026

GitHub 链接：caramaschiHG/awesome-ai-agents-2026

方向标签：agent / catalog / learning

这项目是干什么的：300+ 资源 / 20+ 类别的 2026 AI agent 目录，月度更新。

为什么今天值得关注：在 agent 生态指数级膨胀时期，"地图" 比 "工具" 重要。

与我的相关性：作为每周扫描索引。

上手成本：低。

是否建议我收藏：是。

是否建议我复现：否。

一句话判断：保持信息密度的速查手册。

4. VoltAgent/awesome-ai-agent-papers

GitHub 链接：VoltAgent/awesome-ai-agent-papers

方向标签：agent / research / reading list

这项目是干什么的：2026 年 AI agent 论文聚合（agent engineering / memory / eval / workflow / autonomous systems）。

为什么今天值得关注：搭配 Berkeley 报告一起看，能快速 catch up agent eval 的最新论文。

与我的相关性：求职准备和读论文的索引。

上手成本：低。

是否建议我收藏：是。

是否建议我复现：否（用来挑选要精读的论文）。

一句话判断：2026 agent 论文的 reading list。

5. open-mmlab/mmpose + Tau-J/rtmlib（continued must-have）

GitHub 链接：open-mmlab/mmpose · Tau-J/rtmlib

方向标签：vision / pose / mobile deploy

这项目是干什么的：MMPose 是大而全的 pose 工具箱；rtmlib 是无 mmcv 依赖的轻量推理库（onnxruntime / openvino / tensorrt）。

为什么今天值得关注：今天主题里多个论文（VAIR、NPoseC3D、SportSkills）都依赖 robust pose；rtmlib 仍是手机端 pose 的事实标准。

与我的相关性：攀岩 app 核心依赖，没有之一。

上手成本：低（rtmlib）/ 中（mmpose）。

是否建议我收藏：是（must）。

是否建议我复现：是（如果上周还没在自己视频上跑过，本周必跑）。

一句话判断：移动端 pose 估计的事实标准。

6. ZeTioZ/ClimbingCoach

GitHub 链接：ZeTioZ/ClimbingCoach

方向标签：vision / climbing / app

这项目是干什么的：开源 "攀岩教练"——用 computer vision + AI 给出动作分析。

为什么今天值得关注：你正在做的方向上最直接的开源前作，本周由于多个攀岩相关 arXiv 出现，曝光度回升。

与我的相关性：极高，是必须先读再决定哪些设计要避坑 / 直接借鉴。

上手成本：低-中。

是否建议我收藏：是。

是否建议我复现：是（在自己视频上跑一次，对比 rtmlib 自己搭的 baseline）。

一句话判断：攀岩 app 必读的 prior art。

警告：作为 hobby project，文档完成度有限，复现时要做好补 README 的准备。

7. Shubhamsaboo/awesome-llm-apps

GitHub 链接：Shubhamsaboo/awesome-llm-apps

方向标签：agent / sample apps / learning

这项目是干什么的：100+ 个可直接 clone 的 AI agent / RAG 示例。

为什么今天值得关注：本周持续热度，是 "看代码学 agent" 最高 ROI 的资源之一。

与我的相关性：找到与攀岩 app 模式接近的 sample，加速架构落地。

上手成本：低。

是否建议我收藏：是。

是否建议我复现：选 2 个最相关的（agent + memory + retrieval）逐字读。

一句话判断："读代码学 agent" 的高效资源库。

8. SkyworkAI/SkyReels-V3

GitHub 链接：SkyworkAI/SkyReels-V3

方向标签：vision / video generation

这项目是干什么的：开源的多模态视频生成模型，主打更长生成、更稳一致性。

为什么今天值得关注：和 UniVidX 形成对比阅读，看 "统一 backbone" vs "专精生成" 两条路。

与我的相关性：中（攀岩示范动作生成的可选 backbone）。

上手成本：中-高。

是否建议我收藏：是。

是否建议我复现：先跑 inference。

一句话判断：作为 video generation 一线 baseline 的开源选项。

四、今日最值得我看的 3 个链接

arXiv 2512.17446 — VAIR: Injury Risk Visual Analytics

为什么是今天最值得点开：这是 "从普通比赛视频做 3D motion + biomechanics + 受伤风险" 的完整方法论。和你攀岩 app 想要的 "识别动作 → 改进建议 → 长期健康监控" 是最接近的范式。

Berkeley RDI — How We Broke Top AI Agent Benchmarks

为什么是今天最值得点开：这一篇会改写你接下来怎么 quote benchmark、怎么设计自己的 eval。求职和项目都受益。

AWS Weekly Roundup — AgentCore Payments

为什么是今天最值得点开："agent 自己花钱" 是从今天开始可以认真讨论的工程问题，求职叙事和 side project roadmap 都要据此调整。

五、今日行动清单

1) 收藏但不必立刻看

DAPPOS xBubble（观察 1-2 周再判断是否点进去看 demo）

Printify ChatGPT App（作为 "AI 内嵌商务" 案例存档）

Multi-Camera Self-Calibration（后期多机位拍摄阶段再回头看）

AthleticsPose（做到 3D pose 阶段再回头）

2) 今天值得精读

VAIR（arXiv 2512.17446）—— 范式直接迁移到攀岩 app

SportSkills（arXiv 2603.25163）—— 大规模 in-the-wild dataset，看是否含攀岩

Berkeley Trustworthy Benchmarks 报告 —— 评估文化的拐点

3) 今天值得复现 / 试用

在自己的攀岩视频上跑一次 rtmlib + RTMPose-s（如果上周已跑，本周升级到 RTMW / NPoseC3D 风格的 whole-body pose）

clone UniVidX 跑 inference demo

用 ZeTioZ/ClimbingCoach 在你的视频上跑一遍，记录差异

4) 今天值得记到项目 roadmap

加一个 "受伤风险 / 错误发力" 模块（参考 VAIR）：在 MVP 后两个版本就上

evaluation plan 配 contamination check + cross-user split + adversarial videos（参考 Berkeley 报告）

后期商业化路径：把 "订场地 / 订课 / 装备 reorder" 作为可选 transactional agent 模块（参考 AgentCore Payments）

UniVidX 设计的 "单 backbone 多任务" 作为长期架构选项之一

5) 面试里可以拿来讲的 1-2 个点

"我设计这个攀岩 app 的 eval 借鉴了 Berkeley 2026 年关于 agent benchmark 的 trustworthy 报告，从 day-1 就 enforce contamination check、cross-user split 和 adversarial video set，避免内部 leaderboard 的 exploit 问题。"

"我把攀岩 app 想象成一个 transactional agent 的子集：从识别动作、给建议，到自动订场地、订课程、装备 reorder 形成完整闭环。这套思路在 AWS AgentCore Payments + Alibaba Qwen × Taobao 之后是可工程化的。"

六、备注

今日信息量充足，无需硬凑。本周需要持续跟的两个事件：① Berkeley benchmark 报告引发的 agent eval 文化转向（看 Anthropic / OpenAI / Google 后续是否会出新的 eval methodology）；② AgentCore Payments 之后 "agent 主动支付" 在头部 SaaS 和电商的落地速度。

本期标 "待验证" 的条目：DAPPOS xBubble 的实际能力；Anthropic Claude Mythos Preview 的稳定可用范围（目前仍是限量 preview）。

本日报由 scheduled task 自动生成；信息以 2026-05-12 当日检索为准。