AI 日报 | 2026-05-02 | Tony‘s BLOG

type

Post

status

Published

date

May 2, 2026

slug

summary

今日重点：Zhipu GLM-4.7 用 Huawei Ascend 训练把幻觉率压到 1.2% + 价格只有 Opus 1/136（中国侧供给端硬转折）；Gemini CLI v0.40.0 把 "过去会话自动蒸馏成 skill" 做成默认功能（Karpathy/Goose 路线汇流）；Qwen-Scope 开源 SAE 套件（可解释性进入产品工具箱）；Pentagon 和 Anthropic 重启 7 大 AI 合同对话；ICLR/arXiv 侧 Claw-Eval（4 月 8 号）把 agent eval 三盲区点名——trajectory-opaque / safety underspec / multimodal narrow；Wharton Mollick 4 月 28 号研究反共识："act as expert" 提示词反而降准确度。攀岩 app 重点：AscendMotion 数据集（412k RGB+LiDAR+IMU，22 教练，12 墙）+ ClimbingCap RGB+LiDAR 全局 3D 重建是当前最完整的 climbing-specific 公开数据，应该立刻接入项目。

一、今日最重要的 5 条

1. Zhipu GLM-4.7：1.2% 幻觉率 + 全栈 Huawei Ascend 训练 + $0.11/M token

发生了什么：Zhipu 发布 GLM-4.7，宣称 1.2% 幻觉率（前沿模型最低公开数据），全程在 Huawei Ascend 芯片上训练，输入价 $0.11/M token，对比 Claude Opus 4.7 $5/M。

为什么重要：三件事第一次在同一发布上同时成立——(a) 全栈非 NVIDIA 训练在前沿能力档已经跑通；(b) 幻觉率被压到一档新区间，事实性应用门槛重写；(c) 价格档把 "前沿模型 = 贵 " 这条经验线打穿。

对你：你做攀岩 app 后端 "动作描述 + 改进建议" 时，事实性 + 单 token 成本是核心约束，GLM-4.7 是当前 cost-per-suggestion 最低的可选项；面试讲 "模型选型 " 时把 GLM-4.7 作为 "质量/价格/独立硬件 " 三轴反共识案例，比单讲 OpenAI/Anthropic 区分度大。

链接：https://llm-stats.com/llm-updates （待验证：1.2% 幻觉率为 Zhipu 自报口径，独立 benchmark 尚未跟进）

2. Gemini CLI v0.40.0：tiered memory + 过去会话自动蒸馏 skill + 本地 Gemma routing

发生了什么：Gemini CLI v0.40.0 发布，三件事打包：tiered memory（短期/工作/长期分层），auto-generated skills from past sessions（自动从历史会话蒸馏成可复用 skill），本地 Gemma 模型实验性路由。

为什么重要："long-running agent 在使用中长出自己的 skill 库 " 是 Karpathy 一直在讲的方向，今天 Google 把它做成了默认功能；这和 Anthropic 的 Claude Skills、Block Goose 的 MCP 方向汇流——意味着 "agent skill 生命周期" 已成为 dev tool 标配。

对你：你以前做项目要手动维护 prompt 库 / tool 注册表，现在这套基础设施开始变成 "开箱即用 "——重新评估你 climbing app 的 backend agent 选型；面试讲 agent 工程演化时，把 "prompt → tool → skill → memory" 四阶段画一遍，Gemini CLI v0.40.0 是阶段三→四的标志。

链接：https://llm-stats.com/llm-updates

3. Claw-Eval（arXiv 2604.06132，4 月 8 号）：agent 评估的三大盲区

发生了什么：4 月 8 号上线的 Claw-Eval 论文系统点名了当前 agent eval 的三个 blindspots：(1) trajectory-opaque grading（只看终态，忽略路径）；(2) underspecified safety/robustness checks（让危险路径滑过）；(3) narrow task coverage（不覆盖真实多模态复杂度）。

为什么重要：和 LangSmith Fleet 的 30+ evaluator 模板形成 "工业 vs 学术" 双面证明——agent eval 已从 "加几个 unit test" 升级为独立的工程 + 研究方向；trajectory + safety + multimodal 是 2026 年 agent eval 的新三件套。

对你：你以前可能只做 "输出对不对 "，现在标准答案是 "路径 + 输出 + 安全 + 多模态 " 四象限；做 climbing app 时把 trajectory eval 做成默认（每个建议都记录推理路径），面试就能讲 "我从第一版就遵循 Claw-Eval 三盲区原则 "，比泛泛说 "我做了 eval" 高三个段位。

链接：https://arxiv.org/abs/2604.06132

4. Pentagon ↔ Anthropic 7 大 AI 合同重启对话（5 月 1 号 CNN）

发生了什么：Pentagon 5 月 1 号宣布与 SpaceX / OpenAI / Google / Microsoft / Nvidia / AWS / Reflection 七家签 AI 合同；Anthropic 早期被排除（因坚持 Pentagon 必须接受其安全 guardrails），但 4 月底 White House 已重启对 Anthropic 的对话。

为什么重要：(a) "AI 公司 + 国防客户 " 已成为前沿厂商必经赛道；(b) Anthropic 用 "safety-first" narrative 暂时换得了入场券（之前是被惩罚），是政策博弈中 "原则也能赢回来 " 的典型案例。

对你：portfolio 里如果做 agent / safety / red-teaming 类项目，现在是供给侧最缺的方向；求职时讲 "我关注 capability ≠ safety 这条工程主线"（Black Hat Asia + Claw-Eval + Anthropic 国防对话三件事打包）就有时事感。

链接：https://www.cnn.com/2026/05/01/tech/pentagon-ai-anthropic

5. Wharton Mollick 研究（4 月 28 号）："act as expert" prompt 反而降低准确度

发生了什么：Mollick 4 月 28 号发表 Wharton 研究 Why You Shouldn't Ask Chatbots to Act Like an Expert，量化证明 "You are an expert in X" 类 persona 提示反而降准确度。

为什么重要：直接打脸过去三年 prompt 工程社区的最常见 "通用建议"；和上周 ICLR 2026 "Reasoning Trap"（reasoning ≠ reliability）+ 4 月 8 号 Claw-Eval 一起，构成 2026 春季 "prompt + reasoning + eval 三件玄学被实证反证 " 的完整故事线。

对你：把这条放进面试 "prompt engineering 的反共识 " 表达中，区分度极高；做 climbing app 时不要写 "You are an expert climbing coach"，改写 "Output a structured analysis with metrics A/B/C"——结构化指令 > persona 是 2026 的实证结论。

链接：https://www.oneusefulthing.org/ （Mollick 的 substack 主页）

二、按目标分类

A. 前沿模型 / 一手发布

A1. Zhipu GLM-4.7

事件：1.2% 幻觉率（自报）、全栈 Huawei Ascend 训练、$0.11/M input token。

核心内容：把 "前沿模型 = NVIDIA + 高价 + 高幻觉 " 三个隐含假设一起打掉。

为什么重要：(a) 中国侧供给端硬转折（Ascend 在前沿档跑通）；(b) cost-per-suggestion 类应用进入新可能区间；(c) 倒逼海外厂商在 "幻觉率 + 价格" 两个维度做反应。

我需不需要点开：需要，重点等独立 benchmark 验证 1.2% 是否成立。

链接：https://llm-stats.com/llm-updates

A2. Google Gemini CLI v0.40.0

事件：tiered memory + auto-generated skills from past sessions + 实验性本地 Gemma 路由 + UI 整理。

核心内容："long-running agent 在使用中自蒸馏 skill 库" 落到 dev tool 默认能力。

为什么重要：和 Anthropic Claude Skills、Block Goose MCP 形成 "skill 生命周期标配化 " 共识。

我需不需要点开：需要，特别是 auto-generated skills 的具体触发条件 / 持久化设计。

链接：https://llm-stats.com/llm-updates

A3. Qwen-Scope（开源 SAE 套件）

事件：Qwen 开源稀疏自编码器（Sparse Autoencoder）套件，用于 steering 输出 / 数据分类 / code-switching tracing / benchmark selection。

核心内容：把 Anthropic / OpenAI 内部用过的 mech-interp 工具搬到开源侧，且面向工程任务而非纯研究。

为什么重要：可解释性从 "研究黑话" 第一次进入 "产品工具箱 "——steering 输出意味着可以做 "风格控制 / 安全过滤 " 这类原本要 fine-tune 的任务。

我需不需要点开：中，攀岩 app 用不到，但面试讲 "可解释性 " 时是必备 reference。

链接：https://llm-stats.com/llm-updates

A4. 状态盘点（5 月 2 号）：当前一线模型层固定

事件：OpenAI GPT-5.5（4 月 23 号）、Anthropic Opus 4.7（4 月 16 号）、Google Gemini 3.1 Ultra（4 月）、xAI Grok 4.20、Zhipu GLM-4.7（本周）、阿里 Qwen3-VL；Sonnet 4.5/4 的 1M context beta header 4 月 30 号已正式停用，回到 200K。

核心内容：5 月没有新旗舰，进入消化 + 价格战 + 生态战阶段。

为什么重要："等待下一个旗舰" 的窗口期意味着——把现有模型用透 + 做 eval / agent / 工具链比追新闻更有 ROI。

我需不需要点开：低，知道事实即可；注意 Sonnet 1M context 退场不要踩坑。

链接：https://platform.claude.com/docs/en/release-notes/overview | https://benchlm.ai/blog/posts/claude-api-pricing

B. AI 工程 / Agent / Coding workflow

B1. Claw-Eval：agent eval 三盲区

内容：trajectory-opaque grading / safety underspec / narrow task coverage 是当前 agent eval 的三大失败模式。

可落地价值：直接给出 2026 年 agent eval 的 "标准答案 " 框架——任何项目自评都可以用这三盲区做 checklist。

对我当前开发/学习的意义：你 climbing app 第一版就把 "trajectory log + safety check + multimodal eval" 三件事做进去（哪怕 minimal），面试时区分度极高；不是讲 "我做了 eval"，而是讲 "我做了 trajectory-aware + safety-checked + multimodal eval"。

链接：https://arxiv.org/abs/2604.06132

B2. Gemini CLI v0.40.0 "会话→skill 自动化" + Claude Skills + Goose 三方汇流

内容：三家在 "agent 在使用中自动产出 skill 库 " 这个方向同步收敛。

可落地价值：以前做 dev agent 要手动维护 skill markdown，现在三家都在做自动化；意味着这一层基础设施在 "商品化中 "，不应该自己再撸一遍。

对我当前开发/学习的意义：你 climbing app 后端 agent 用现成框架（Claude Skills / Gemini CLI / Goose）+ 业务侧 skill 设计，比自己撸 harness ROI 高；面试可以讲 "agent skill 生命周期 " 这个抽象，是 2026 年最新的工程主线。

链接：https://llm-stats.com/llm-updates

B3. Mollick "act as expert" 反共识研究（4 月 28 号）

内容：persona-style "You are an expert in X" 提示反而降准确度。

可落地价值：删掉过去三年 prompt 模板里大量 "You are X" 开头；改用 "Output structured fields A/B/C with following constraints"。

对我当前开发/学习的意义：你 climbing app 的 prompt 一开始就走 structured output 路线（output 4 KPI + 1 改进建议），不要写 expert persona——和最新研究方向一致。

链接：https://www.oneusefulthing.org/

B4. A-RAG（arXiv 2602.03442，2026 年 2 月）：hierarchical retrieval interfaces

内容：Agentic RAG 走分层检索接口（keyword / semantic / chunk read 三种工具），在 HotpotQA / 2WikiMultiHopQA / MuSiQue / GraphRAG-Bench 四个 multi-hop QA 上做 SOTA。

可落地价值："RAG 不是一个 retriever，是 agent 用三类工具自主选 " 已成新范式；single-tool retrieval 在 multi-hop QA 上明确落后。

对我当前开发/学习的意义：你 climbing app 后端如果要做 "基于历史攀岩动作 / 历史教练建议 " 的检索，不要做 single embedding retrieval，直接走 A-RAG 风格的 keyword + semantic + chunk read 三工具。

链接：https://arxiv.org/abs/2602.03442 | https://github.com/Ayanami0730/arag

B5. Cursor 3 / Kilo Code / coding agent 阶段判断

内容：4 月行业地图——Cursor 3（cloud agents on isolated VMs + /worktree + parallel Agent Tabs）、Kilo Code（多平台开源核心 + Agent Manager + subagents）、五强格局：Claude Code / Cursor / Codex / Replit Agent 3 / Devin。

可落地价值：Cursor 3 的 /worktree + parallel agents 是当前 "我让 agent 同时跑三个子任务 " 最稳的工程模板。

对我当前开发/学习的意义：把 Cursor 3 的 worktree 模型作为 "isolated agent execution" 的事实参考；面试讲 coding agent 时按 "terminal-native (Claude Code) / IDE-anchored (Cursor) / cloud task-runner (Codex) / full-stack (Replit Agent 3) / autonomous (Devin) " 五分类讲，区分度比 "我用过 Cursor" 高很多。

链接：https://thenewstack.io/ai-coding-tool-stack/ | https://codersera.com/blog/ai-coding-agents-complete-guide-2026/

C. 视觉 / 视频 / 运动人体分析（攀岩 app 重点）

C1. AscendMotion 数据集 + ClimbingCap 方法（climbing-specific 一手数据）

内容：AscendMotion 数据集——412k RGB + LiDAR 帧 + IMU 测量，22 名 skilled climbing coaches，12 块不同岩壁；ClimbingCap 方法——RGB + LiDAR 多模态全局坐标系下连续 3D 人体攀岩动作重建。

与攀岩 app 相关性：极高——这是当前最完整、climbing-specific 的公开数据集 + 方法，直接对应你 "自己拍视频太少 " 的核心痛点。

可迁移到项目的点：(a) 立刻把 AscendMotion 接入你训练 pipeline，作为 climbing pose / motion 的 baseline 训练数据；(b) ClimbingCap 的 RGB + LiDAR 双模态思路可以作为 iPhone Pro / iPad Pro 用户的高端模式（普通 iPhone 用 RGB-only fallback）；(c) 22 个教练的标注是稀缺资源——可以用作 "专家动作 reference " 的种子库。

优先级：极高

链接：https://medium.com/@yustinaivanova/climbing-activity-recognition-using-video-data-684f68b42a42 | https://github.com/ZeTioZ/ClimbingCoach

C2. iPad Pro LiDAR + Apple Vision framework 的攀岩 RGB-D 路径

内容：用 iPad Pro / iPhone Pro 的 LiDAR + Apple Vision framework 直接获得 3D climber pose，无需 server-side reconstruction。

与攀岩 app 相关性：高——iOS 端原生路径，部署成本极低（不需要 model serving）。

可迁移到项目的点：作为 iOS 端 "高端模式" pipeline；用户拿 iPhone Pro 拍摄 → on-device LiDAR + Vision → 立即出 3D pose → 上云仅做 LLM 反馈。

优先级：高

链接：https://www.frontiersin.org/journals/physiology/articles/10.3389/fphys.2025.1649330/full

C3. Wan2.2-TI2V-5B（HuggingFace 趋势）+ Netflix 视频 inpainting

内容：Wan2.2-TI2V-5B 是 text/image → video 的开源模型；Netflix 开源了视频 inpainting / object removal 模型（用于视频编辑工作流）。

与攀岩 app 相关性：中——不是直接的 pose / action recognition 工具，但 (a) Wan2.2-TI2V-5B 可作为 Cosmos Transfer 之外的轻量合成视频候选；(b) Netflix inpainting 可用于 "去掉墙上其他攀岩者只保留主体 " 的预处理。

可迁移到项目的点：把 Netflix inpainting 作为视频前处理选配（去除围观人群 / 其他攀岩者），让 pose estimation 更稳。

优先级：中

链接：https://huggingface.co/papers/trending | https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

C4. Attentive Keypoint Identification（AAAI 2026）：progressive spatiotemporal refinement

内容：视频侧人体 pose estimation 新方法，用渐进式时空 refinement 解决遮挡 / 帧间漂移。

与攀岩 app 相关性：中-高——攀岩典型场景就是身体被岩点 / 自身遮挡，时空 refinement 是直接对症的方法论。

可迁移到项目的点：作为云端深度路径里 "YOLO26-Pose 输出 → progressive refinement → 稳定 keypoint 序列 " 的中间一层。

优先级：中

链接：https://ojs.aaai.org/index.php/AAAI/article/view/38050

C5. Gemma 4 全模态 (E4B 8B / E-series any-to-any)

内容：Google 4 月把 Gemma 4 family 推到 26B–31B，含 E-series "any-to-any" 实验模型；E4B 8B 全模态（text + image + audio）。

与攀岩 app 相关性：中-高——8B 全模态意味着 on-device 跑视频理解开始成为可能（一年前需要 30B+）。

可迁移到项目的点：作为 "端侧动作描述 " 的 candidate（与 Nemotron 3 Nano Omni server 路径形成端云对比）；如果你做 iOS 应用，Gemma 4 E4B 是当前最容易在 Apple Silicon 上跑的多模态选项。

优先级：中-高

链接：https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

D. 产品化 / 商业化 / 行业动态

D1. Pentagon 七强 AI 合同 + Anthropic 重启对话

动态：Pentagon 5 月 1 号宣布与 SpaceX / OpenAI / Google / MSFT / Nvidia / AWS / Reflection 七家签 AI 合同；Anthropic 因坚持 safety guardrails 被排除后又被 White House 重新接触。

背后的趋势判断："AI + 国防" 正式成为前沿厂商必经赛道；同时 "safety-first" narrative 短期是劣势但中期可能成为差异化筹码。

对 side project / 求职 / 项目方向的启发：safety / red-teaming / agent eval 类项目供给紧缺；做 portfolio 时把 safety 作为正面 narrative 而不是 "加分项 " 处理。

链接：https://www.cnn.com/2026/05/01/tech/pentagon-ai-anthropic

D2. OpenAI ARR 突破 $25B + Anthropic ARR ~$19B + IPO 信号

动态：OpenAI 年化收入超过 $250 亿，传 2026 年底前可能 IPO；Anthropic 接近 $190 亿。

背后的趋势判断：前沿大模型公司从 "补贴期 " 进入 "现金流充沛期 "；意味着收购 / 招聘 / 生态投入都会显著加速。

对 side project / 求职 / 项目方向的启发：与 Claude / OpenAI 生态整合的项目（MCP server / Skills / Agent SDK 集成）在求职市场会持续吃香；冷门小厂工具的 ROI 在下降。

链接：https://llm-stats.com/llm-updates

D3. 中国侧供给端硬转折

动态：GLM-4.7 全栈 Ascend + 1.2% 幻觉率 + 极低价格三件事同时成立。

背后的趋势判断：(a) NVIDIA 在前沿模型训练侧的 lock-in 第一次被打破；(b) 中国侧 "性价比 + 事实性 " 双线推进，可能改写 "前沿模型供给 " 的全球结构。

对 side project / 求职 / 项目方向的启发：portfolio 里加一条 "我同时在 GPT-5.5 / Sonnet 5 / GLM-4.7 / Qwen3-VL 上做对照 eval" 比单云单模型 narrative 强；面试讲 "如何选模型 " 时把 GLM-4.7 列入候选会显得有市场感。

链接：https://llm-stats.com/llm-updates

D4. AI coding agent 商业化数据

动态：Cursor $1.2B ARR / Claude $2.5B 年化 run rate（含 Claude Code）。

背后的趋势判断：dev tool 一档 ARR 超过传统 SaaS 一线水平；coding agent 已经过了 "是否商业化 " 阶段，进入 "谁吃下哪一段 " 阶段。

对 side project / 求职 / 项目方向的启发：求职转向 "coding agent + dev infra" 方向 ROI 极高；做 side project 时把 "coding agent 工程化 " 作为方向比 "通用 chatbot " 更有故事。

链接：https://thenewstack.io/ai-coding-tool-stack/

E. 学习价值 / 求职价值

E1. Claw-Eval 三盲区（trajectory / safety / multimodal）

适合我怎么用：精读 + 写进项目 roadmap + 面试表达

推荐动作：先精读论文 Section 3（三盲区定义），把这三条做成 climbing app 的 eval checklist；面试时打包 "Reasoning Trap + Mollick act-as-expert + Claw-Eval" 三件事讲 "prompt + reasoning + eval 的反共识" 90 秒口述。

链接：https://arxiv.org/abs/2604.06132

E2. AscendMotion + ClimbingCap（climbing-specific 数据 + 方法）

适合我怎么用：精读 + 复现 + 写进项目 roadmap

推荐动作：(a) 下载 AscendMotion 数据集做 dataset card；(b) 跑 ClimbingCap baseline；(c) 把 "AscendMotion + 你自己拍的少量视频 + Cosmos Transfer 合成视频 " 三源混合作为 climbing app 训练数据策略。

链接：https://medium.com/@yustinaivanova/climbing-activity-recognition-using-video-data-684f68b42a42

E3. Gemini CLI v0.40.0 "会话→skill 自动化"

适合我怎么用：试用 + 选择性精读

推荐动作：在你日常的 dev 工作流中试用 Gemini CLI v0.40.0 一周，观察它自动蒸馏出来的 skill 是否真有用；如果有用，写一条 "agent skill 生命周期 " 的 portfolio note。

链接：https://llm-stats.com/llm-updates

E4. Mollick "act as expert" 研究

适合我怎么用：面试表达 + 改写自己 prompt 库

推荐动作：把过去所有 "You are an expert in X" 类 prompt 全部改写成 structured output 形式；面试时讲 "我把 prompt 库按 2026 年最新 Wharton 研究做了 audit"。

链接：https://www.oneusefulthing.org/

三、今日高分 GitHub Repo（精选 7 个）

Repo 1：Ayanami0730/arag

GitHub 链接：https://github.com/Ayanami0730/arag

方向标签：agent / RAG / multi-hop QA

这项目是干什么的：A-RAG 官方实现，hierarchical retrieval interfaces（keyword / semantic / chunk read 三工具）的 agentic RAG 框架。

为什么今天值得关注：在 HotpotQA / 2WikiMultiHopQA / MuSiQue / GraphRAG-Bench 四个 multi-hop QA 上 SOTA；是当前最干净的 agentic RAG 参考实现。

与我的相关性：高

上手成本：中

是否建议我收藏：是

是否建议我复现：是——攀岩 app 的 "历史动作 + 教练建议 " 检索路径直接套这个框架。

一句话判断：2026 年 RAG 选型的事实参考，不要再写 single-retriever。

Repo 2：ZeTioZ/ClimbingCoach

GitHub 链接：https://github.com/ZeTioZ/ClimbingCoach

方向标签：video / pose / climbing / app

这项目是干什么的：基于 YOLO 的攀岩 coach，实时人体 pose + climbing hold 检测，自动 route 创建。

为什么今天值得关注：和 AscendMotion / ClimbingCap 一起，构成当前最相关的 "climbing-specific 开源参考 " 三件套。

与我的相关性：极高

上手成本：低-中

是否建议我收藏：是

是否建议我复现：是——拿你自己一段室内攀岩视频跑 baseline，5 分钟出第一组结果。

一句话判断：你 climbing app 项目的 prior art，必须先看再决定差异化路径。

Repo 3：QwenLM/Qwen3-VL

GitHub 链接：https://github.com/QwenLM/Qwen3-VL

方向标签：multimodal / video / open-source

这项目是干什么的：Qwen3-VL 全系列（2B/4B/8B/32B），原生视频输入。

为什么今天值得关注：在 Nemotron 3 Nano Omni / Gemma 4 E4B 之间，是中等规模开源视频理解的稳定参考。

与我的相关性：中-高

上手成本：中

是否建议我收藏：是

是否建议我复现：是——Qwen3-VL-8B vs Gemma 4 E4B vs Nemotron 3 Nano Omni 三角对照，是你 portfolio 高密度信号点。

一句话判断：开源视频理解的稳态选型基线。

Repo 4：anthropics/claude-code（含 Agent SDK + Skills）

GitHub 链接：https://github.com/anthropics/claude-code

方向标签：agent / coding / skills / dev tools

这项目是干什么的：Anthropic 官方 Claude Code + Agent SDK + Skills 仓库。

为什么今天值得关注：和 Gemini CLI v0.40.0 + Block Goose 一起，构成 "agent skill 生命周期 " 三大事实参考。

与我的相关性：高

上手成本：低

是否建议我收藏：是

是否建议我复现：是——基于 Claude Skills 写一组 "climbing app 后端反馈" skill。

一句话判断：agent skill 抽象的事实标准之一。

Repo 5：langchain-ai/deepagents

GitHub 链接：https://github.com/langchain-ai/deepagents

方向标签：agent / harness / deployment

这项目是干什么的：LangChain/LangGraph 的 agent harness，自带 planning tool / filesystem backend / subagents。

为什么今天值得关注：和 Claude Skills / Gemini CLI v0.40.0 一起，构成 "我不想自己撸 harness 但要可控" 的三选项之一。

与我的相关性：中

上手成本：中

是否建议我收藏：是

是否建议我复现：可选——只在你确定要用 LangGraph 做长跑 agent 时才上手。

一句话判断：LangChain 工程化的代表项目，但不要把 LangChain 抽象当作必选。

Repo 6：NVIDIA/Cosmos

GitHub 链接：https://github.com/NVIDIA/Cosmos

方向标签：world model / video generation / physical AI

这项目是干什么的：NVIDIA 世界基础模型平台，Cosmos Transfer 接受 pose / depth / segmentation / lidar 作为可控视频生成输入。

为什么今天值得关注：和 AscendMotion 配套——"少量真实攀岩视频 + AscendMotion pose 蓝图 + Cosmos Transfer 合成 " 是你训练数据三源混合的核心环节。

与我的相关性：极高

上手成本：中-高

是否建议我收藏：是

是否建议我复现：是

一句话判断：解决 climbing app 数据稀缺的最强外挂（昨天提过，今天和 AscendMotion 配套后价值翻倍）。

Repo 7：VoltAgent/awesome-ai-agent-papers

GitHub 链接：https://github.com/VoltAgent/awesome-ai-agent-papers

方向标签：curation / agent / papers

这项目是干什么的：2026 年 AI agent 论文精选，按 agent engineering / memory / eval / workflows / autonomous 分类，月更。

为什么今天值得关注：Claw-Eval / A-RAG / ShardMemo 等本周热点都收录；做 agent eval 选题时翻一遍最快。

与我的相关性：中

上手成本：低

是否建议我收藏：是

是否建议我复现：N/A，watch 即可。

一句话判断：做 agent paper 选题先翻它。

警告 ⚠️：

OpenClaw（300k+ stars，昨天提过）：仍处于生态塑形期，文档碎片，不要拿来当 dev daily driver；watch 即可。

Hermes Agent（self-evolution 概念）：缺乏严肃 eval，热度高、价值待验证。

persona-distillation 类仓库扎堆：和今天 Mollick 的 "act as expert" 反共识研究形成讽刺对照——这一波 prompt-asset-pile 类项目大概率被实证击穿，不要全装。

四、今日最值得我看的 3 篇 / 3 个链接

1. Claw-Eval（arXiv 2604.06132）

为什么是今天最值得点开：直接给出 2026 年 agent eval 的 "标准三盲区 " 框架；不读这篇，你做 eval 都还停留在 2024 年水平。

链接：https://arxiv.org/abs/2604.06132

2. AscendMotion + ClimbingCap 介绍

为什么是今天最值得点开：直接对应你 climbing app 的 "数据稀缺" 核心痛点——412k 帧 + 22 教练 + 12 墙是 climbing-specific 第一个量级靠谱的公开数据。

链接：https://medium.com/@yustinaivanova/climbing-activity-recognition-using-video-data-684f68b42a42

3. Mollick "act as expert" 研究（One Useful Thing 4 月 28 号）

为什么是今天最值得点开：5 分钟读完，立刻可以 audit 你过去三年所有 prompt 模板；面试时是高密度反共识表达点。

链接：https://www.oneusefulthing.org/

五、今日行动清单（最重要）

1. 今天值得收藏但不必立刻看：

Pentagon ↔ Anthropic 7 大 AI 合同 CNN 报道（关注后续 Anthropic 是否真签下）

Qwen-Scope SAE 套件（可解释性工具，未来用得上但不紧急）

Cursor 3 / Kilo Code 的 multi-agent 架构（dev tool 选型时翻）

Wan2.2-TI2V-5B + Netflix 视频 inpainting（视频前处理选配）

2. 今天值得精读：

Claw-Eval 论文 Section 3 三盲区定义（约 30 分钟）

AscendMotion 数据卡 + ClimbingCap 方法（约 30 分钟）

Mollick "act as expert" 研究全文（约 10 分钟）

3. 今天值得复现 / 试用：

下载 AscendMotion 数据集，跑 ClimbingCap baseline（半天）

在你 dev 工作流中试用 Gemini CLI v0.40.0 一周，观察 auto-skill

跑 Qwen3-VL-8B vs Gemma 4 E4B vs Nemotron 3 Nano Omni 三角对照（用同一段攀岩视频）

把过去 prompt 库里所有 "You are an expert" 改写成 structured output

4. 今天值得记到项目 roadmap（攀岩 app）：

数据：训练数据 = AscendMotion（climbing-specific 公开数据）+ 你自己拍的少量视频 + Cosmos Transfer pose-conditioned 合成视频，三源混合。

iOS 端：用 iPad Pro / iPhone Pro LiDAR + Apple Vision framework 做 RGB-D pose 路径作为 "高端模式"；普通设备 fallback 到 YOLO26-Pose RGB-only。

后端 agent：用 Claude Skills / Gemini CLI 自动 skill 蒸馏框架，不要自己撸 harness。

eval：第一版就遵循 Claw-Eval 三盲区——trajectory log + safety check + multimodal eval。

prompt：所有 prompt 走 structured output 形式，不写 "You are an expert" persona（受 Mollick 4 月 28 号研究驱动）。

检索：基于历史动作 / 教练建议的检索走 A-RAG hierarchical retrieval interfaces（keyword + semantic + chunk read 三工具），不要 single embedding。

指标体系：v0 直接采用 AscentAI 4 KPI（center-of-mass / velocity / fluidity / immobility ratio）+ 你的差异化 "动作改进建议可执行度"。

5. 今天面试可以拿来讲的 1–2 个点：

(高优先) "prompt + reasoning + eval 三件玄学的反共识链"——Mollick "act as expert" 反而降准（2026-04-28）+ ICLR 2026 Reasoning Trap + Claw-Eval 三盲区（2026-04-08）。三件事打包讲，密度 + 时事感同时拉满。

"我做 climbing motion analysis app，训练数据用三源混合（AscendMotion 公开数据 + 自己拍 + Cosmos Transfer pose-conditioned 合成）；视觉 pipeline 端云分层（端侧 iPad Pro LiDAR + Apple Vision，云侧 SAM 3.1 + 4DHumans + Nemotron 3 Nano Omni）；agent 后端用 Claude Skills 自动 skill 蒸馏，eval 遵循 Claw-Eval 三盲区。"——能体现一手数据感 + 端到端系统设计 + 工程取舍 + 跟踪最新论文。

六、信息密度 / 信噪比说明

今天有 3 件硬货：GLM-4.7（中国侧供给端硬转折）、Gemini CLI v0.40.0（agent skill 生命周期标配化的标志）、AscendMotion + ClimbingCap（climbing-specific 第一个量级靠谱的数据 + 方法，对你 app 是结构性利好）。

arXiv 侧 Claw-Eval（4 月 8 号）和 Mollick 研究（4 月 28 号）虽不是今日首发，但本周才被广泛 picked up，作为 "反共识三件套 " 的两片放在今日报告，整体 narrative 力度大于碎片化散讲。

Pentagon ↔ Anthropic 是真今日新闻（CNN 5 月 1 号），但对你具体 ROI 偏低，作为 trend signal 收录。

今天没有重磅一手前沿模型旗舰发布——5 月没有新旗舰，是消化期；不硬凑。

聚合源标注：GLM-4.7 / Gemini CLI v0.40.0 / Qwen-Scope 主要源自 llm-stats.com 聚合，独立 benchmark 待跟进——已分别注明 "待验证"。

与昨天（5 月 1 号）相比，今天信号集中在 "中国侧供给 + agent skill 自动化 + eval 反共识 + climbing 数据 " 四条主轴，没有重复昨天 Cosmos / Nemotron / Goose 三件事。

自动生成于 2026-05-02 by AI 日报 scheduled task。