📰AI 日报 | 2026-05-02
type
Post
status
Published
date
May 2, 2026
slug
summary
今日重点:Zhipu GLM-4.7 用 Huawei Ascend 训练把幻觉率压到 1.2% + 价格只有 Opus 1/136(中国侧供给端硬转折);Gemini CLI v0.40.0 把 "过去会话自动蒸馏成 skill" 做成默认功能(Karpathy/Goose 路线汇流);Qwen-Scope 开源 SAE 套件(可解释性进入产品工具箱);Pentagon 和 Anthropic 重启 7 大 AI 合同对话;ICLR/arXiv 侧 Claw-Eval(4 月 8 号)把 agent eval 三盲区点名——trajectory-opaque / safety underspec / multimodal narrow;Wharton Mollick 4 月 28 号研究反共识:"act as expert" 提示词反而降准确度。攀岩 app 重点:AscendMotion 数据集(412k RGB+LiDAR+IMU,22 教练,12 墙)+ ClimbingCap RGB+LiDAR 全局 3D 重建是当前最完整的 climbing-specific 公开数据,应该立刻接入项目。
tags
新闻
开发
思考
category
技术分享
icon
📰
password
Comment
Hide
今日基调:中国侧供给端出现硬转折——GLM-4.7 用 Huawei Ascend 全栈训练 + 1.2% 幻觉率 + $0.11/M token 三件事一起发生,意味着 "前沿能力 / 价格 / 硬件解耦 " 第一次同时为真;Agent 工程进入 "会话→skill 自动化" 阶段——Gemini CLI v0.40.0 把 Karpathy 反复鼓吹的 "long-running agent 自蒸馏 skill" 做成默认功能,Goose / Claude Skills 路线汇流;Eval 侧出现一手反共识——Claw-Eval(4 月 8 号)和 Mollick 的 "act as expert" 研究(4 月 28 号)从两端共同瓦解了 "prompt 玄学 + 终态打分 " 的旧 eval 范式;攀岩 app 一侧今天的真硬货是 AscendMotion 数据集 + ClimbingCap 方法——这是 climbing-specific 第一个量级靠谱的公开数据,直接缓解上周提到的 "数据稀缺 " 痛点。

一、今日最重要的 5 条

1. Zhipu GLM-4.7:1.2% 幻觉率 + 全栈 Huawei Ascend 训练 + $0.11/M token
  • 发生了什么:Zhipu 发布 GLM-4.7,宣称 1.2% 幻觉率(前沿模型最低公开数据),全程在 Huawei Ascend 芯片上训练,输入价 $0.11/M token,对比 Claude Opus 4.7 $5/M。
  • 为什么重要:三件事第一次在同一发布上同时成立——(a) 全栈非 NVIDIA 训练在前沿能力档已经跑通;(b) 幻觉率被压到一档新区间,事实性应用门槛重写;(c) 价格档把 "前沿模型 = 贵 " 这条经验线打穿。
  • 对你:你做攀岩 app 后端 "动作描述 + 改进建议" 时,事实性 + 单 token 成本是核心约束,GLM-4.7 是当前 cost-per-suggestion 最低的可选项;面试讲 "模型选型 " 时把 GLM-4.7 作为 "质量/价格/独立硬件 " 三轴反共识案例,比单讲 OpenAI/Anthropic 区分度大。
2. Gemini CLI v0.40.0:tiered memory + 过去会话自动蒸馏 skill + 本地 Gemma routing
  • 发生了什么:Gemini CLI v0.40.0 发布,三件事打包:tiered memory(短期/工作/长期分层),auto-generated skills from past sessions(自动从历史会话蒸馏成可复用 skill),本地 Gemma 模型实验性路由。
  • 为什么重要:"long-running agent 在使用中长出自己的 skill 库 " 是 Karpathy 一直在讲的方向,今天 Google 把它做成了默认功能;这和 Anthropic 的 Claude Skills、Block Goose 的 MCP 方向汇流——意味着 "agent skill 生命周期" 已成为 dev tool 标配。
  • 对你:你以前做项目要手动维护 prompt 库 / tool 注册表,现在这套基础设施开始变成 "开箱即用 "——重新评估你 climbing app 的 backend agent 选型;面试讲 agent 工程演化时,把 "prompt → tool → skill → memory" 四阶段画一遍,Gemini CLI v0.40.0 是阶段三→四的标志。
3. Claw-Eval(arXiv 2604.06132,4 月 8 号):agent 评估的三大盲区
  • 发生了什么:4 月 8 号上线的 Claw-Eval 论文系统点名了当前 agent eval 的三个 blindspots:(1) trajectory-opaque grading(只看终态,忽略路径);(2) underspecified safety/robustness checks(让危险路径滑过);(3) narrow task coverage(不覆盖真实多模态复杂度)。
  • 为什么重要:和 LangSmith Fleet 的 30+ evaluator 模板形成 "工业 vs 学术" 双面证明——agent eval 已从 "加几个 unit test" 升级为独立的工程 + 研究方向;trajectory + safety + multimodal 是 2026 年 agent eval 的新三件套。
  • 对你:你以前可能只做 "输出对不对 ",现在标准答案是 "路径 + 输出 + 安全 + 多模态 " 四象限;做 climbing app 时把 trajectory eval 做成默认(每个建议都记录推理路径),面试就能讲 "我从第一版就遵循 Claw-Eval 三盲区原则 ",比泛泛说 "我做了 eval" 高三个段位。
4. Pentagon ↔ Anthropic 7 大 AI 合同重启对话(5 月 1 号 CNN)
  • 发生了什么:Pentagon 5 月 1 号宣布与 SpaceX / OpenAI / Google / Microsoft / Nvidia / AWS / Reflection 七家签 AI 合同;Anthropic 早期被排除(因坚持 Pentagon 必须接受其安全 guardrails),但 4 月底 White House 已重启对 Anthropic 的对话。
  • 为什么重要:(a) "AI 公司 + 国防客户 " 已成为前沿厂商必经赛道;(b) Anthropic 用 "safety-first" narrative 暂时换得了入场券(之前是被惩罚),是政策博弈中 "原则也能赢回来 " 的典型案例。
  • 对你:portfolio 里如果做 agent / safety / red-teaming 类项目,现在是供给侧最缺的方向;求职时讲 "我关注 capability ≠ safety 这条工程主线"(Black Hat Asia + Claw-Eval + Anthropic 国防对话三件事打包)就有时事感。
5. Wharton Mollick 研究(4 月 28 号):"act as expert" prompt 反而降低准确度
  • 发生了什么:Mollick 4 月 28 号发表 Wharton 研究 Why You Shouldn't Ask Chatbots to Act Like an Expert,量化证明 "You are an expert in X" 类 persona 提示反而降准确度。
  • 为什么重要:直接打脸过去三年 prompt 工程社区的最常见 "通用建议";和上周 ICLR 2026 "Reasoning Trap"(reasoning ≠ reliability)+ 4 月 8 号 Claw-Eval 一起,构成 2026 春季 "prompt + reasoning + eval 三件玄学被实证反证 " 的完整故事线。
  • 对你:把这条放进面试 "prompt engineering 的反共识 " 表达中,区分度极高;做 climbing app 时不要写 "You are an expert climbing coach",改写 "Output a structured analysis with metrics A/B/C"——结构化指令 > persona 是 2026 的实证结论。

二、按目标分类

A. 前沿模型 / 一手发布

A1. Zhipu GLM-4.7
  • 事件:1.2% 幻觉率(自报)、全栈 Huawei Ascend 训练、$0.11/M input token。
  • 核心内容:把 "前沿模型 = NVIDIA + 高价 + 高幻觉 " 三个隐含假设一起打掉。
  • 为什么重要:(a) 中国侧供给端硬转折(Ascend 在前沿档跑通);(b) cost-per-suggestion 类应用进入新可能区间;(c) 倒逼海外厂商在 "幻觉率 + 价格" 两个维度做反应。
  • 我需不需要点开:需要,重点等独立 benchmark 验证 1.2% 是否成立。
A2. Google Gemini CLI v0.40.0
  • 事件:tiered memory + auto-generated skills from past sessions + 实验性本地 Gemma 路由 + UI 整理。
  • 核心内容:"long-running agent 在使用中自蒸馏 skill 库" 落到 dev tool 默认能力。
  • 为什么重要:和 Anthropic Claude Skills、Block Goose MCP 形成 "skill 生命周期标配化 " 共识。
  • 我需不需要点开:需要,特别是 auto-generated skills 的具体触发条件 / 持久化设计。
A3. Qwen-Scope(开源 SAE 套件)
  • 事件:Qwen 开源稀疏自编码器(Sparse Autoencoder)套件,用于 steering 输出 / 数据分类 / code-switching tracing / benchmark selection。
  • 核心内容:把 Anthropic / OpenAI 内部用过的 mech-interp 工具搬到开源侧,且面向工程任务而非纯研究。
  • 为什么重要:可解释性从 "研究黑话" 第一次进入 "产品工具箱 "——steering 输出意味着可以做 "风格控制 / 安全过滤 " 这类原本要 fine-tune 的任务。
  • 我需不需要点开:,攀岩 app 用不到,但面试讲 "可解释性 " 时是必备 reference。
A4. 状态盘点(5 月 2 号):当前一线模型层固定
  • 事件:OpenAI GPT-5.5(4 月 23 号)、Anthropic Opus 4.7(4 月 16 号)、Google Gemini 3.1 Ultra(4 月)、xAI Grok 4.20、Zhipu GLM-4.7(本周)、阿里 Qwen3-VL;Sonnet 4.5/4 的 1M context beta header 4 月 30 号已正式停用,回到 200K。
  • 核心内容:5 月没有新旗舰,进入消化 + 价格战 + 生态战阶段。
  • 为什么重要:"等待下一个旗舰" 的窗口期意味着——把现有模型用透 + 做 eval / agent / 工具链 比追新闻更有 ROI。
  • 我需不需要点开:,知道事实即可;注意 Sonnet 1M context 退场不要踩坑。

B. AI 工程 / Agent / Coding workflow

B1. Claw-Eval:agent eval 三盲区
  • 内容:trajectory-opaque grading / safety underspec / narrow task coverage 是当前 agent eval 的三大失败模式。
  • 可落地价值:直接给出 2026 年 agent eval 的 "标准答案 " 框架——任何项目自评都可以用这三盲区做 checklist。
  • 对我当前开发/学习的意义:你 climbing app 第一版就把 "trajectory log + safety check + multimodal eval" 三件事做进去(哪怕 minimal),面试时区分度极高;不是讲 "我做了 eval",而是讲 "我做了 trajectory-aware + safety-checked + multimodal eval"。
B2. Gemini CLI v0.40.0 "会话→skill 自动化" + Claude Skills + Goose 三方汇流
  • 内容:三家在 "agent 在使用中自动产出 skill 库 " 这个方向同步收敛。
  • 可落地价值:以前做 dev agent 要手动维护 skill markdown,现在三家都在做自动化;意味着这一层基础设施在 "商品化中 ",不应该自己再撸一遍。
  • 对我当前开发/学习的意义:你 climbing app 后端 agent 用现成框架(Claude Skills / Gemini CLI / Goose)+ 业务侧 skill 设计,比自己撸 harness ROI 高;面试可以讲 "agent skill 生命周期 " 这个抽象,是 2026 年最新的工程主线。
B3. Mollick "act as expert" 反共识研究(4 月 28 号)
  • 内容:persona-style "You are an expert in X" 提示反而降准确度。
  • 可落地价值:删掉过去三年 prompt 模板里大量 "You are X" 开头;改用 "Output structured fields A/B/C with following constraints"。
  • 对我当前开发/学习的意义:你 climbing app 的 prompt 一开始就走 structured output 路线(output 4 KPI + 1 改进建议),不要写 expert persona——和最新研究方向一致。
B4. A-RAG(arXiv 2602.03442,2026 年 2 月):hierarchical retrieval interfaces
  • 内容:Agentic RAG 走分层检索接口(keyword / semantic / chunk read 三种工具),在 HotpotQA / 2WikiMultiHopQA / MuSiQue / GraphRAG-Bench 四个 multi-hop QA 上做 SOTA。
  • 可落地价值:"RAG 不是一个 retriever,是 agent 用三类工具自主选 " 已成新范式;single-tool retrieval 在 multi-hop QA 上明确落后。
  • 对我当前开发/学习的意义:你 climbing app 后端如果要做 "基于历史攀岩动作 / 历史教练建议 " 的检索,不要做 single embedding retrieval,直接走 A-RAG 风格的 keyword + semantic + chunk read 三工具。
B5. Cursor 3 / Kilo Code / coding agent 阶段判断
  • 内容:4 月行业地图——Cursor 3(cloud agents on isolated VMs + /worktree + parallel Agent Tabs)、Kilo Code(多平台开源核心 + Agent Manager + subagents)、五强格局:Claude Code / Cursor / Codex / Replit Agent 3 / Devin。
  • 可落地价值:Cursor 3 的 /worktree + parallel agents 是当前 "我让 agent 同时跑三个子任务 " 最稳的工程模板。
  • 对我当前开发/学习的意义:把 Cursor 3 的 worktree 模型作为 "isolated agent execution" 的事实参考;面试讲 coding agent 时按 "terminal-native (Claude Code) / IDE-anchored (Cursor) / cloud task-runner (Codex) / full-stack (Replit Agent 3) / autonomous (Devin) " 五分类讲,区分度比 "我用过 Cursor" 高很多。

C. 视觉 / 视频 / 运动人体分析(攀岩 app 重点)

C1. AscendMotion 数据集 + ClimbingCap 方法(climbing-specific 一手数据)
  • 内容:AscendMotion 数据集——412k RGB + LiDAR 帧 + IMU 测量,22 名 skilled climbing coaches,12 块不同岩壁;ClimbingCap 方法——RGB + LiDAR 多模态全局坐标系下连续 3D 人体攀岩动作重建。
  • 与攀岩 app 相关性:极高——这是当前最完整、climbing-specific 的公开数据集 + 方法,直接对应你 "自己拍视频太少 " 的核心痛点。
  • 可迁移到项目的点:(a) 立刻把 AscendMotion 接入你训练 pipeline,作为 climbing pose / motion 的 baseline 训练数据;(b) ClimbingCap 的 RGB + LiDAR 双模态思路可以作为 iPhone Pro / iPad Pro 用户的高端模式(普通 iPhone 用 RGB-only fallback);(c) 22 个教练的标注是稀缺资源——可以用作 "专家动作 reference " 的种子库。
  • 优先级:极高
C2. iPad Pro LiDAR + Apple Vision framework 的攀岩 RGB-D 路径
  • 内容:用 iPad Pro / iPhone Pro 的 LiDAR + Apple Vision framework 直接获得 3D climber pose,无需 server-side reconstruction。
  • 与攀岩 app 相关性:——iOS 端原生路径,部署成本极低(不需要 model serving)。
  • 可迁移到项目的点:作为 iOS 端 "高端模式" pipeline;用户拿 iPhone Pro 拍摄 → on-device LiDAR + Vision → 立即出 3D pose → 上云仅做 LLM 反馈。
  • 优先级:
C3. Wan2.2-TI2V-5B(HuggingFace 趋势)+ Netflix 视频 inpainting
  • 内容:Wan2.2-TI2V-5B 是 text/image → video 的开源模型;Netflix 开源了视频 inpainting / object removal 模型(用于视频编辑工作流)。
  • 与攀岩 app 相关性:——不是直接的 pose / action recognition 工具,但 (a) Wan2.2-TI2V-5B 可作为 Cosmos Transfer 之外的轻量合成视频候选;(b) Netflix inpainting 可用于 "去掉墙上其他攀岩者只保留主体 " 的预处理。
  • 可迁移到项目的点:把 Netflix inpainting 作为视频前处理选配(去除围观人群 / 其他攀岩者),让 pose estimation 更稳。
  • 优先级:
C4. Attentive Keypoint Identification(AAAI 2026):progressive spatiotemporal refinement
  • 内容:视频侧人体 pose estimation 新方法,用渐进式时空 refinement 解决遮挡 / 帧间漂移。
  • 与攀岩 app 相关性:中-高——攀岩典型场景就是身体被岩点 / 自身遮挡,时空 refinement 是直接对症的方法论。
  • 可迁移到项目的点:作为云端深度路径里 "YOLO26-Pose 输出 → progressive refinement → 稳定 keypoint 序列 " 的中间一层。
  • 优先级:
C5. Gemma 4 全模态 (E4B 8B / E-series any-to-any)
  • 内容:Google 4 月把 Gemma 4 family 推到 26B–31B,含 E-series "any-to-any" 实验模型;E4B 8B 全模态(text + image + audio)。
  • 与攀岩 app 相关性:中-高——8B 全模态意味着 on-device 跑视频理解开始成为可能(一年前需要 30B+)。
  • 可迁移到项目的点:作为 "端侧动作描述 " 的 candidate(与 Nemotron 3 Nano Omni server 路径形成端云对比);如果你做 iOS 应用,Gemma 4 E4B 是当前最容易在 Apple Silicon 上跑的多模态选项。
  • 优先级:中-高

D. 产品化 / 商业化 / 行业动态

D1. Pentagon 七强 AI 合同 + Anthropic 重启对话
  • 动态:Pentagon 5 月 1 号宣布与 SpaceX / OpenAI / Google / MSFT / Nvidia / AWS / Reflection 七家签 AI 合同;Anthropic 因坚持 safety guardrails 被排除后又被 White House 重新接触。
  • 背后的趋势判断:"AI + 国防" 正式成为前沿厂商必经赛道;同时 "safety-first" narrative 短期是劣势但中期可能成为差异化筹码。
  • 对 side project / 求职 / 项目方向的启发:safety / red-teaming / agent eval 类项目供给紧缺;做 portfolio 时把 safety 作为正面 narrative 而不是 "加分项 " 处理。
D2. OpenAI ARR 突破 $25B + Anthropic ARR ~$19B + IPO 信号
  • 动态:OpenAI 年化收入超过 $250 亿,传 2026 年底前可能 IPO;Anthropic 接近 $190 亿。
  • 背后的趋势判断:前沿大模型公司从 "补贴期 " 进入 "现金流充沛期 ";意味着收购 / 招聘 / 生态投入都会显著加速。
  • 对 side project / 求职 / 项目方向的启发:与 Claude / OpenAI 生态整合的项目(MCP server / Skills / Agent SDK 集成)在求职市场会持续吃香;冷门小厂工具的 ROI 在下降。
D3. 中国侧供给端硬转折
  • 动态:GLM-4.7 全栈 Ascend + 1.2% 幻觉率 + 极低价格三件事同时成立。
  • 背后的趋势判断:(a) NVIDIA 在前沿模型训练侧的 lock-in 第一次被打破;(b) 中国侧 "性价比 + 事实性 " 双线推进,可能改写 "前沿模型供给 " 的全球结构。
  • 对 side project / 求职 / 项目方向的启发:portfolio 里加一条 "我同时在 GPT-5.5 / Sonnet 5 / GLM-4.7 / Qwen3-VL 上做对照 eval" 比单云单模型 narrative 强;面试讲 "如何选模型 " 时把 GLM-4.7 列入候选会显得有市场感。
D4. AI coding agent 商业化数据
  • 动态:Cursor $1.2B ARR / Claude $2.5B 年化 run rate(含 Claude Code)。
  • 背后的趋势判断:dev tool 一档 ARR 超过传统 SaaS 一线水平;coding agent 已经过了 "是否商业化 " 阶段,进入 "谁吃下哪一段 " 阶段。
  • 对 side project / 求职 / 项目方向的启发:求职转向 "coding agent + dev infra" 方向 ROI 极高;做 side project 时把 "coding agent 工程化 " 作为方向比 "通用 chatbot " 更有故事。

E. 学习价值 / 求职价值

E1. Claw-Eval 三盲区(trajectory / safety / multimodal)
  • 适合我怎么用:精读 + 写进项目 roadmap + 面试表达
  • 推荐动作:先精读论文 Section 3(三盲区定义),把这三条做成 climbing app 的 eval checklist;面试时打包 "Reasoning Trap + Mollick act-as-expert + Claw-Eval" 三件事讲 "prompt + reasoning + eval 的反共识" 90 秒口述。
E2. AscendMotion + ClimbingCap(climbing-specific 数据 + 方法)
  • 适合我怎么用:精读 + 复现 + 写进项目 roadmap
  • 推荐动作:(a) 下载 AscendMotion 数据集做 dataset card;(b) 跑 ClimbingCap baseline;(c) 把 "AscendMotion + 你自己拍的少量视频 + Cosmos Transfer 合成视频 " 三源混合作为 climbing app 训练数据策略。
E3. Gemini CLI v0.40.0 "会话→skill 自动化"
  • 适合我怎么用:试用 + 选择性精读
  • 推荐动作:在你日常的 dev 工作流中试用 Gemini CLI v0.40.0 一周,观察它自动蒸馏出来的 skill 是否真有用;如果有用,写一条 "agent skill 生命周期 " 的 portfolio note。
E4. Mollick "act as expert" 研究
  • 适合我怎么用:面试表达 + 改写自己 prompt 库
  • 推荐动作:把过去所有 "You are an expert in X" 类 prompt 全部改写成 structured output 形式;面试时讲 "我把 prompt 库按 2026 年最新 Wharton 研究做了 audit"。

三、今日高分 GitHub Repo(精选 7 个)

Repo 1:Ayanami0730/arag
  • 方向标签:agent / RAG / multi-hop QA
  • 这项目是干什么的:A-RAG 官方实现,hierarchical retrieval interfaces(keyword / semantic / chunk read 三工具)的 agentic RAG 框架。
  • 为什么今天值得关注:在 HotpotQA / 2WikiMultiHopQA / MuSiQue / GraphRAG-Bench 四个 multi-hop QA 上 SOTA;是当前最干净的 agentic RAG 参考实现。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——攀岩 app 的 "历史动作 + 教练建议 " 检索路径直接套这个框架。
  • 一句话判断:2026 年 RAG 选型的事实参考,不要再写 single-retriever。
Repo 2:ZeTioZ/ClimbingCoach
  • 方向标签:video / pose / climbing / app
  • 这项目是干什么的:基于 YOLO 的攀岩 coach,实时人体 pose + climbing hold 检测,自动 route 创建。
  • 为什么今天值得关注:和 AscendMotion / ClimbingCap 一起,构成当前最相关的 "climbing-specific 开源参考 " 三件套。
  • 与我的相关性:极高
  • 上手成本:低-中
  • 是否建议我收藏:
  • 是否建议我复现:——拿你自己一段室内攀岩视频跑 baseline,5 分钟出第一组结果。
  • 一句话判断:你 climbing app 项目的 prior art,必须先看再决定差异化路径。
Repo 3:QwenLM/Qwen3-VL
  • 方向标签:multimodal / video / open-source
  • 这项目是干什么的:Qwen3-VL 全系列(2B/4B/8B/32B),原生视频输入。
  • 为什么今天值得关注:在 Nemotron 3 Nano Omni / Gemma 4 E4B 之间,是中等规模开源视频理解的稳定参考。
  • 与我的相关性:中-高
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——Qwen3-VL-8B vs Gemma 4 E4B vs Nemotron 3 Nano Omni 三角对照,是你 portfolio 高密度信号点。
  • 一句话判断:开源视频理解的稳态选型基线。
Repo 4:anthropics/claude-code(含 Agent SDK + Skills)
  • 方向标签:agent / coding / skills / dev tools
  • 这项目是干什么的:Anthropic 官方 Claude Code + Agent SDK + Skills 仓库。
  • 为什么今天值得关注:和 Gemini CLI v0.40.0 + Block Goose 一起,构成 "agent skill 生命周期 " 三大事实参考。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——基于 Claude Skills 写一组 "climbing app 后端反馈" skill。
  • 一句话判断:agent skill 抽象的事实标准之一。
Repo 5:langchain-ai/deepagents
  • 方向标签:agent / harness / deployment
  • 这项目是干什么的:LangChain/LangGraph 的 agent harness,自带 planning tool / filesystem backend / subagents。
  • 为什么今天值得关注:和 Claude Skills / Gemini CLI v0.40.0 一起,构成 "我不想自己撸 harness 但要可控" 的三选项之一。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:可选——只在你确定要用 LangGraph 做长跑 agent 时才上手。
  • 一句话判断:LangChain 工程化的代表项目,但不要把 LangChain 抽象当作必选。
Repo 6:NVIDIA/Cosmos
  • 方向标签:world model / video generation / physical AI
  • 这项目是干什么的:NVIDIA 世界基础模型平台,Cosmos Transfer 接受 pose / depth / segmentation / lidar 作为可控视频生成输入。
  • 为什么今天值得关注:和 AscendMotion 配套——"少量真实攀岩视频 + AscendMotion pose 蓝图 + Cosmos Transfer 合成 " 是你训练数据三源混合的核心环节。
  • 与我的相关性:极高
  • 上手成本:中-高
  • 是否建议我收藏:
  • 是否建议我复现:
  • 一句话判断:解决 climbing app 数据稀缺的最强外挂(昨天提过,今天和 AscendMotion 配套后价值翻倍)。
Repo 7:VoltAgent/awesome-ai-agent-papers
  • 方向标签:curation / agent / papers
  • 这项目是干什么的:2026 年 AI agent 论文精选,按 agent engineering / memory / eval / workflows / autonomous 分类,月更。
  • 为什么今天值得关注:Claw-Eval / A-RAG / ShardMemo 等本周热点都收录;做 agent eval 选题时翻一遍最快。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A,watch 即可。
  • 一句话判断:做 agent paper 选题先翻它。
警告 ⚠️:
  • OpenClaw(300k+ stars,昨天提过):仍处于生态塑形期,文档碎片,不要拿来当 dev daily driver;watch 即可。
  • Hermes Agent(self-evolution 概念):缺乏严肃 eval,热度高、价值待验证
  • persona-distillation 类仓库扎堆:和今天 Mollick 的 "act as expert" 反共识研究形成讽刺对照——这一波 prompt-asset-pile 类项目大概率被实证击穿,不要全装

四、今日最值得我看的 3 篇 / 3 个链接

1. Claw-Eval(arXiv 2604.06132)
  • 为什么是今天最值得点开:直接给出 2026 年 agent eval 的 "标准三盲区 " 框架;不读这篇,你做 eval 都还停留在 2024 年水平。
2. AscendMotion + ClimbingCap 介绍
  • 为什么是今天最值得点开:直接对应你 climbing app 的 "数据稀缺" 核心痛点——412k 帧 + 22 教练 + 12 墙是 climbing-specific 第一个量级靠谱的公开数据。
3. Mollick "act as expert" 研究(One Useful Thing 4 月 28 号)
  • 为什么是今天最值得点开:5 分钟读完,立刻可以 audit 你过去三年所有 prompt 模板;面试时是高密度反共识表达点。

五、今日行动清单(最重要)

1. 今天值得收藏但不必立刻看:
  • Pentagon ↔ Anthropic 7 大 AI 合同 CNN 报道(关注后续 Anthropic 是否真签下)
  • Qwen-Scope SAE 套件(可解释性工具,未来用得上但不紧急)
  • Cursor 3 / Kilo Code 的 multi-agent 架构(dev tool 选型时翻)
  • Wan2.2-TI2V-5B + Netflix 视频 inpainting(视频前处理选配)
2. 今天值得精读:
  • Claw-Eval 论文 Section 3 三盲区定义(约 30 分钟)
  • AscendMotion 数据卡 + ClimbingCap 方法(约 30 分钟)
  • Mollick "act as expert" 研究全文(约 10 分钟)
3. 今天值得复现 / 试用:
  • 下载 AscendMotion 数据集,跑 ClimbingCap baseline(半天)
  • 在你 dev 工作流中试用 Gemini CLI v0.40.0 一周,观察 auto-skill
  • 跑 Qwen3-VL-8B vs Gemma 4 E4B vs Nemotron 3 Nano Omni 三角对照(用同一段攀岩视频)
  • 把过去 prompt 库里所有 "You are an expert" 改写成 structured output
4. 今天值得记到项目 roadmap(攀岩 app):
  • 数据:训练数据 = AscendMotion(climbing-specific 公开数据)+ 你自己拍的少量视频 + Cosmos Transfer pose-conditioned 合成视频,三源混合。
  • iOS 端:用 iPad Pro / iPhone Pro LiDAR + Apple Vision framework 做 RGB-D pose 路径作为 "高端模式";普通设备 fallback 到 YOLO26-Pose RGB-only。
  • 后端 agent:用 Claude Skills / Gemini CLI 自动 skill 蒸馏框架,不要自己撸 harness。
  • eval:第一版就遵循 Claw-Eval 三盲区——trajectory log + safety check + multimodal eval。
  • prompt:所有 prompt 走 structured output 形式,不写 "You are an expert" persona(受 Mollick 4 月 28 号研究驱动)。
  • 检索:基于历史动作 / 教练建议的检索走 A-RAG hierarchical retrieval interfaces(keyword + semantic + chunk read 三工具),不要 single embedding。
  • 指标体系:v0 直接采用 AscentAI 4 KPI(center-of-mass / velocity / fluidity / immobility ratio)+ 你的差异化 "动作改进建议可执行度"。
5. 今天面试可以拿来讲的 1–2 个点:
  • (高优先) "prompt + reasoning + eval 三件玄学的反共识链"——Mollick "act as expert" 反而降准(2026-04-28)+ ICLR 2026 Reasoning Trap + Claw-Eval 三盲区(2026-04-08)。三件事打包讲,密度 + 时事感同时拉满。
  • "我做 climbing motion analysis app,训练数据用三源混合(AscendMotion 公开数据 + 自己拍 + Cosmos Transfer pose-conditioned 合成);视觉 pipeline 端云分层(端侧 iPad Pro LiDAR + Apple Vision,云侧 SAM 3.1 + 4DHumans + Nemotron 3 Nano Omni);agent 后端用 Claude Skills 自动 skill 蒸馏,eval 遵循 Claw-Eval 三盲区。"——能体现一手数据感 + 端到端系统设计 + 工程取舍 + 跟踪最新论文。

六、信息密度 / 信噪比说明

  • 今天有 3 件硬货:GLM-4.7(中国侧供给端硬转折)、Gemini CLI v0.40.0(agent skill 生命周期标配化的标志)、AscendMotion + ClimbingCap(climbing-specific 第一个量级靠谱的数据 + 方法,对你 app 是结构性利好)。
  • arXiv 侧 Claw-Eval(4 月 8 号)和 Mollick 研究(4 月 28 号)虽不是今日首发,但本周才被广泛 picked up,作为 "反共识三件套 " 的两片放在今日报告,整体 narrative 力度大于碎片化散讲。
  • Pentagon ↔ Anthropic 是真今日新闻(CNN 5 月 1 号),但对你具体 ROI 偏低,作为 trend signal 收录。
  • 今天没有重磅一手前沿模型旗舰发布——5 月没有新旗舰,是消化期;不硬凑。
  • 聚合源标注:GLM-4.7 / Gemini CLI v0.40.0 / Qwen-Scope 主要源自 llm-stats.com 聚合,独立 benchmark 待跟进——已分别注明 "待验证"。
  • 与昨天(5 月 1 号)相比,今天信号集中在 "中国侧供给 + agent skill 自动化 + eval 反共识 + climbing 数据 " 四条主轴,没有重复昨天 Cosmos / Nemotron / Goose 三件事。
  • 自动生成于 2026-05-02 by AI 日报 scheduled task。
AI 日报 | 2026-05-03AI 日报 | 2026-05-01
Loading...