AI 日报 | 2026-05-01 | Tony‘s BLOG

type

Post

status

Published

date

May 1, 2026

slug

summary

今日重点：Google Gemini 3.1 Ultra 上线 (2M context + 原生多模态 + sandboxed code exec)；OpenAI 打破微软独家绑定，GPT-5.5 + Codex 登陆 AWS Bedrock；NVIDIA 双发 Nemotron 3 Nano Omni (30B-A3B MoE，Conv3D，256K) 与 Cosmos 物理 AI 平台升级；Block 把内部 coding agent Goose 捐给 Linux Foundation；Black Hat Asia 警告 agentic offensive security 把 bug→exploit 时间从 5 个月压到 10 小时。攀岩 app 重点：Cosmos Transfer 接受 pose/segmentation/depth/lidar 作为可控视频生成输入，YOLO26-pose 实时关键点教程已发，Lightning Pose 3D 不确定性框架适合数据稀缺场景。

一、今日最重要的 5 条

1. Google Gemini 3.1 Ultra 发布：2M context + 原生多模态 + sandboxed code execution

发生了什么：Gemini 3.1 Ultra 上线，2M token 上下文原生跨 text/image/audio/video（无需 transcription 中转），并附带 sandboxed Code Execution tool，可在对话中直接写、跑、测代码。

为什么重要：把 "长上下文 + 真多模态 + 自带代码沙盒" 三件事压到一个模型里——这是和 Claude Sonnet 5 的 2M / GPT-5.5 的 agentic harness 的正面对比；多模态侧不再走 ASR/transcription 这条已被诟病的退化路径。

对你：你的攀岩 app 如果走 "视频 → 动作分析 → 文本反馈" 路径，Gemini 3.1 Ultra 是当前唯一一个不强迫你先把视频降维成 frame 描述的旗舰；至少要把它列入双路径的高质量分支候选。

链接：https://llm-stats.com/llm-updates

2. OpenAI 终结微软独家绑定：GPT-5.5 上 AWS Bedrock，Codex 登陆 AWS

发生了什么：2019 年起的 Microsoft 独家承运合同结束（IP 授权延续到 2032，但服务承运不再独家）；GPT-5.5 已通过 Amazon Bedrock 提供，Codex 同步上 AWS，并出现 Bedrock Managed Agents powered by OpenAI。

为什么重要：意味着前沿模型的发行从 "绑死一家云" 转向 "多云 commodity"；对企业选型是天大的好消息，对 Microsoft 是结构性损失，对 AWS 是一次性补全。

对你：side project / 求职项目里再用 Azure OpenAI 已经没有故事价值；做 portfolio 时直接讲 "我同时在 Bedrock + Vertex 上跑同一 agent 做对照" 就有反差感。

链接：https://llm-stats.com/llm-updates

3. NVIDIA 双发：Nemotron 3 Nano Omni（4 月 28 号）+ Cosmos 物理 AI 平台升级

发生了什么：Nemotron 3 Nano Omni 是 30B-A3B 混合 MoE，原生统一 vision/audio/language，含 Conv3D + EVS、256K context，HF + OpenRouter + 25+ 平台同步上架；同期 Cosmos World Foundation Models 发布大版本——Cosmos Transfer 直接吃 segmentation map / depth map / lidar / pose estimation map / trajectory map 生成可控 photoreal 视频。

为什么重要：(a) Nemotron 3 Nano Omni 是当前性价比最好的一档开放多模态，9× 效率提升，便于 agent 场景大规模 inference；(b) Cosmos 把 pose 升级为 "可控视频合成的一等输入"——这是 sports analytics / 动作分析数据增强路径上一次范式级跃迁。

对你（攀岩 app）：Cosmos Transfer 是"用少量真实攀岩视频 + pose 蓝图 → 合成大量 photoreal 训练视频"的现成工具；这条数据增强路径直接缓解你 "自己拍视频太少" 的核心约束。

链接：https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/ | https://www.nvidia.com/en-us/ai/cosmos/

4. Block 把内部 coding agent Goose 捐给 Linux Foundation

发生了什么：Block（前 Square）把内部使用的 AI coding agent Goose 捐赠给 Linux Foundation；Rust 写、本地运行、通过 MCP 接外部工具、支持多 LLM backend。

为什么重要：是第一个被中立基金会托管的、企业级、本地优先 coding agent——和 OpenAI Symphony（云优先）、Cursor（IDE 优先）、Devin（封闭服务）形成第四条路。

对你：本地优先 + Rust + 多 backend 的组合非常适合做 "climbing app 后端 agent" 的最小依赖原型；面试讲 coding agent 演化路线时，加上 Goose 这条线会让你显得真的在跟踪生态。

链接：https://fazm.ai/blog/open-source-ai-releases-april-2026

5. Black Hat Asia 警告（4 月 27 号）：agentic offensive security 把 bug→exploit 从 5 个月压到 10 小时

发生了什么：4 月 27 号 Black Hat Asia 上的报告显示，2023 年 bug-to-exploit 平均 5 个月，2026 年因前沿 LLM 加 agent harness 已压到 10 小时。

为什么重要：这是安全侧能力跃迁的硬数据，意味着所有暴露 LLM 工具调用 / 文件写入 / 命令执行的 agent 都进入了 1-day exploit 风险区；不是恐慌，是工程现实。

对你：你做 agent 时把 sandboxing / capability scoping / audit log 当作默认前置——这正好与上周 Reasoning Trap 论文的 "reasoning ≠ reliability" 形成完整安全 narrative，面试可以一起讲。

链接：https://llm-stats.com/llm-updates

二、按目标分类

A. 前沿模型 / 一手发布

A1. Google Gemini 3.1 Ultra

事件：2M token 上下文，原生跨 text/image/audio/video（无 transcription 中转），sandboxed Code Execution tool 内置。

核心内容：把 long context + true multimodal + 自带代码沙盒三件事压到一个 endpoint。

为什么重要：是 Sonnet 5（2M、强 agent）/ GPT-5.5（agentic harness）之外，第一个真把视频/音频当一等输入的旗舰；agentic 场景下 "模型自己跑代码" 不再需要外挂 sandbox。

我需不需要点开：需要，重点看 video understanding 子项与 code execution sandbox 的限额/隔离设计。

链接：https://llm-stats.com/llm-updates

A2. NVIDIA Nemotron 3 Nano Omni（4 月 28 号）

事件：30B-A3B 混合 MoE，原生 vision + audio + language，Conv3D + EVS（efficient video sampling），256K context。

核心内容：声称在 agent 任务上比上一代 9× 效率提升；HF / OpenRouter / 25+ 平台同步上架。

为什么重要：当前性价比最好的开放多模态 backbone——可在 agent 场景下做大规模 inference 而不被 API 费用卡死。

我需不需要点开：需要，且建议直接拉到本地试 video 输入 latency。

链接：https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/

A3. NVIDIA Cosmos World Foundation Models 大版本（4 月）

事件：Cosmos Transfer / Predict 升级，吃 segmentation / depth / lidar / pose / trajectory 作为可控输入；首批合作方含 Agility Robotics / Figure AI / Skild AI / Uber。

核心内容：开放 model license 上 HF；推出 Open Physical AI Data Factory Blueprint 蓝图。

为什么重要：把 "pose-conditioned controllable video generation" 从论文级落到生产级；对 sports / 动作 / 机器人三条赛道都有外溢。

我需不需要点开：需要，特别是 Cosmos Transfer 的 pose-conditioning 入口。

链接：https://www.nvidia.com/en-us/ai/cosmos/ | https://nvidianews.nvidia.com/news/nvidia-releases-new-physical-ai-models-as-global-partners-unveil-next-generation-robots

A4. OpenAI GPT-5.5 上 AWS Bedrock + Codex 登陆 AWS

事件：Microsoft 独家承运结束，OpenAI 同时在 AWS、Google Cloud 上线服务；Bedrock 出 Managed Agents powered by OpenAI。

核心内容：模型分发从单云到多云 commodity 化。

为什么重要：企业选型门槛降低；同时意味着 "用 OpenAI = 给 MSFT 钱" 的 narrative 终结。

我需不需要点开：中，关注 Bedrock Managed Agents 的 trace/eval 集成。

链接：https://llm-stats.com/llm-updates

A5. Anthropic 节奏盘点（无新旗舰）

事件：4 月没有新模型首发，Sonnet 5 / Opus 4.7 / Agent SDK 维持稳态；Google 对 Anthropic 的 $40B 投资公告（4 月 24 号）继续主导生态新闻。

核心内容：Anthropic 处于消化 4 月旗舰 + 等待下一个大版本的 "维护期"。

为什么重要：意味着 "Claude 生态投入 " 短期不会被自家版本快速替代——你做基于 Claude 的项目 ROI 更稳。

我需不需要点开：低，记住事实即可。

链接：https://techcrunch.com/2026/04/24/google-to-invest-up-to-40b-in-anthropic-in-cash-and-compute/

B. AI 工程 / Agent / Coding workflow

B1. Block 捐 Goose 给 Linux Foundation

内容：企业级 coding agent，Rust 实现，本地优先，MCP 工具协议，多 LLM backend。

可落地价值：是 "本地优先 + 中立托管" coding agent 的代表；可作为 Symphony / Cursor / Devin 之外的第四条路径模板。

对我当前开发/学习的意义：你的 climbing app 后端 agent 如果想保留 "本地推理 fallback" 路径，Goose 的架构是当前最干净的参考；面试讲 coding agent 演化时把它放进列表很加分。

链接：https://fazm.ai/blog/open-source-ai-releases-april-2026

B2. LangChain 生态：LangSmith Fleet + 30+ evaluator 模板 + deepagents deploy

内容：LangSmith 内置 30+ evaluator（safety/response quality/trajectory/multimodal），cost alerting；接入 Arcade.dev 7,500+ 工具；deepagents deploy 一行命令拉起可水平扩展生产服务。

可落地价值：把 agent eval / 工具市场 / 部署三件事补全到企业可用门槛。

对我当前开发/学习的意义：trajectory + multimodal evaluator 模板可直接套到你 climbing 视频反馈 agent 上；不再需要手写 eval pipeline。注意：是否真用 LangChain 抽象仍可争论，但 LangSmith 作为 eval 平台单独使用价值很高。

链接：https://www.langchain.com/blog/april-2026-langchain-newsletter

B3. Black Hat Asia 数据：bug→exploit 5 个月压到 10 小时（4 月 27 号）

内容：agentic offensive security 让 1-day 漏洞利用从月级变成小时级。

可落地价值：所有暴露 tool-call / file-write / shell 的 agent 都进入新威胁模型；sandboxing 从可选变默认。

对我当前开发/学习的意义：你做 agent 时第一道工序就是 capability scoping + audit log；和上周 Reasoning Trap 论文打包，可形成 "agent 工程的两个反共识" 面试故事——一个学术，一个工业。

链接：https://llm-stats.com/llm-updates

B4. OpenAI Agents SDK 演化方向 + Bedrock Managed Agents

内容：OpenAI 把 Codex 的 harness（指令、工具、审批、tracing、resume bookkeeping）抽象给开发者；Bedrock 上线 Managed Agents powered by OpenAI。

可落地价值：长跑 agent + sandbox code execution + 中断恢复已经是托管服务标配，不再需要自己撸 harness。

对我当前开发/学习的意义：写自己 agent harness 的 ROI 在下降；把精力压到 "业务侧 skill / tool 设计" 比重做 harness 更有面试价值。

链接：https://openai.com/index/the-next-evolution-of-the-agents-sdk/

C. 视觉 / 视频 / 运动人体分析（攀岩 app 重点）

C1. NVIDIA Cosmos Transfer：pose-conditioned controllable video generation

内容：Cosmos Transfer 接受 segmentation / depth / lidar / pose / trajectory map 作为输入，输出可控 photoreal 视频。

与攀岩 app 相关性：极高——直接对应你的 "自己视频太少" 痛点：用少量真实视频 + pose 序列合成大量 photoreal 训练视频。

可迁移到项目的点：(a) 用 SAM 3.1 提取 climber mask；(b) 4DHumans 出 3D pose 序列；(c) Cosmos Transfer 以 pose 蓝图生成不同墙面/光照的合成视频；(d) 用合成数据扩充攀岩动作识别训练集。

优先级：高

链接：https://www.nvidia.com/en-us/ai/cosmos/

C2. Lightning Pose 3D（4 月 23 号，Columbia / Kavli）

内容：multi-view 动物 pose estimation 不确定性框架，用新颖训练 + post-processing 解决标注少 + uncertainty 估计差的问题。

与攀岩 app 相关性：中-高——你属于 "标注极少 + 自遮挡多" 场景，不确定性估计直接关联 "动作建议是否敢给"。

可迁移到项目的点：post-processing 框架可套到人体 pose；不确定性输出可用作 "反馈置信度"——置信度低时不给具体建议而是请用户提供更多机位。

优先级：中（动物 → 人体迁移需要适配）

链接：https://preprints.kavlimeetings.org/2026/04/23/all/neuro/columbia/261583/

C3. YOLO26-Pose 实时关键点（教程 4 月 21 号）

内容：YOLO26 的 pose 子任务实时关键点估计，附 LearnOpenCV 教程。

与攀岩 app 相关性：高——是 mobile / edge 侧最容易部署的 baseline。

可迁移到项目的点：作为 "on-device 快速 pose" 路径（Cosmos Transfer / 4DHumans 是 server 侧重路径）；建议双路径，端侧实时给反馈、云侧出深度报告。

优先级：高

链接：https://learnopencv.com/yolo26-pose-estimation-tutorial/

C4. "3D human pose-based action recognition for industrial scenarios"（Volume 92, April 2026）

内容：2D pose → 3D 重建 → graph convolutional 动作识别三阶段 pipeline，工业场景。

与攀岩 app 相关性：高——同一 pipeline 可直接迁移到攀岩动作识别，且工业场景的 self-occlusion 与攀岩相似。

可迁移到项目的点：(a) GCN 在 pose-based action recognition 上仍是稳健 baseline；(b) 攀岩动作分类标签设计可参考其工业动作分类粒度。

优先级：中

链接：https://www.sciencedirect.com/science/article/abs/pii/S014193822500335X

C5. 现存攀岩 AI 应用扫盘（Belay AI / AscentAI / Climbah / ClimbAlong SPOT）

内容：Belay AI（视觉 + 实时反馈）、AscentAI（center-of-mass / velocity / fluidity / immobility ratio 量化指标，2 月更新）、Climbah（个性化训练计划 + 视频分析）、ClimbAlong SPOT（基于摄像头的 routesetting 数据自动化）。

与攀岩 app 相关性：极高——这是你的直接竞品/参考。

可迁移到项目的点：AscentAI 的 4 个量化指标（center-of-mass / velocity / fluidity / immobility ratio）是当前业界共识的 climbing motion KPI 集——你的 app 可以直接抄这个指标体系起手，再叠加自己的差异化（如 "动作改进建议生成"）。

优先级：高

链接：https://belay.ai/ | https://play.google.com/store/apps/details?id=com.jonasdeuchler.ascendai | https://apps.apple.com/us/app/climbah-bouldering-climb-ai/id6755648466

D. 产品化 / 商业化 / 行业动态

D1. OpenAI 多云化 + Microsoft 独家结束

动态：Microsoft IP 授权延续到 2032，但 OpenAI 服务承运不再独家；GPT-5.5 + Codex 上 AWS。

背后的趋势判断：前沿模型从 "绑死一家云" 转向 commodity；Microsoft 失去 distribution lock-in，AWS 一次性补齐缺口。

对 side project / 求职 / 项目方向的启发：portfolio 中讲 "在 Bedrock + Vertex 上跑同一 agent 做对照实验" 比单云 Azure OpenAI 更有 narrative。

链接：https://llm-stats.com/llm-updates

D2. NVIDIA 物理 AI 联合发布（Boston Dynamics / Caterpillar / Figure / LG / NEURA / Skild）

动态：NVIDIA 发布新物理 AI 模型，多家机器人厂商同步发布基于其平台的下一代机器人。

背后的趋势判断：物理 AI 已经从 "demo 时代" 进入 "OEM 集成时代"——这意味着传感器/姿态/运动数据将成为核心 IP。

对 side project / 求职 / 项目方向的启发：sports analytics + 物理 AI 中间地带（"用机器人物理模型评估人类运动"）目前几乎没人做；做攀岩 app 时可以加一条 "力学合理性 " 维度，差异化更明显。

链接：https://nvidianews.nvidia.com/news/nvidia-releases-new-physical-ai-models-as-global-partners-unveil-next-generation-robots

D3. OpenAI 据传与 MediaTek + Qualcomm 合作做 AI-first 智能手机

动态：传 OpenAI 在做基于 agent 而非 app 的智能手机，MediaTek/Qualcomm 提供 SoC。

背后的趋势判断："端侧 AI agent 替代传统 app" 是当前最大的产品形态押注；如果成立，移动端 AI engineer / on-device LLM 工程师价值显著上升。

对 side project / 求职 / 项目方向的启发：把 climbing app 做成 "on-device 实时 + 云端深度" 双路径，是符合这个未来形态的设计。

链接：https://llm-stats.com/llm-updates （待验证：硬件细节为媒体口径）

D4. 攀岩行业 AI 落地真实进度

动态：Climbah / Belay AI / AscentAI 都已在 App Store / Google Play 上线；ClimbAlong SPOT 与 Techtopia 在 gym B2B 落地。

背后的趋势判断：C 端攀岩 AI 已经从概念进入 "上架竞争" 阶段；差异化要靠 (a) 反馈具体度 (b) UX (c) 数据壁垒。

对 side project / 求职 / 项目方向的启发：你的 app 不能再以 "做出来" 为目标，必须从第一版就想清楚差异化点（建议从 "动作改进建议的可执行度" 切入——竞品都偏量化指标，建议层薄）。

链接：https://climbingbusinessjournal.com/ai-powered-routesetting-management-climbalong-spot-system-puts-route-data-at-your-fingertips/

E. 学习价值 / 求职价值

E1. NVIDIA Cosmos Transfer + Nemotron 3 Nano Omni 一体化文档

适合我怎么用：精读 + 复现

推荐动作：先精读 Cosmos Transfer 的 pose-conditioning 接口（30 分钟），然后用 Nemotron 3 Nano Omni 跑一段你拍的攀岩视频，量化 latency / 描述质量；这两步可以构成你 portfolio 的 "合成数据 + 多模态视频理解 " 子项目。

链接：https://www.nvidia.com/en-us/ai/cosmos/ | https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/

E2. Black Hat Asia agentic offensive security 数据

适合我怎么用：面试表达

推荐动作：和上周 ICLR 2026 "Reasoning Trap" 打包成 "agent 工程的两个反共识：reasoning ≠ reliability + capability ≠ safety" 90 秒口述。

链接：https://llm-stats.com/llm-updates

E3. AscentAI 公开的 4 个量化指标（center-of-mass / velocity / fluidity / immobility ratio）

适合我怎么用：写进项目 roadmap

推荐动作：直接把这 4 个指标作为你 climbing app 的 v0 KPI；在此之上加一条 "动作改进建议可执行度" 作为差异化指标。

链接：https://play.google.com/store/apps/details?id=com.jonasdeuchler.ascendai

E4. Goose（Block → Linux Foundation）

适合我怎么用：收藏 + 选择性精读

推荐动作：精读 Goose 的 architecture overview（不要看实现细节），重点看它的 "local-first + MCP + multi-backend" 三角；这套架构思想可以直接搬到你 climbing app 的 agent backend。

链接：https://fazm.ai/blog/open-source-ai-releases-april-2026

三、今日高分 GitHub Repo（精选 7 个）

Repo 1：NVIDIA / Cosmos

GitHub 链接：https://github.com/NVIDIA/Cosmos

方向标签：world model / video generation / physical AI

这项目是干什么的：NVIDIA 的世界基础模型平台，含 Transfer / Predict / Reason 三类 WFM；用 segmentation/depth/lidar/pose/trajectory 作为可控视频生成输入。

为什么今天值得关注：4 月 Cosmos 大版本同步发布，pose-conditioning 是直接对应攀岩动作合成数据增强的现成入口。

与我的相关性：极高

上手成本：中-高（GPU 资源要求不低，但 HF 上有 demo 模型）

是否建议我收藏：是

是否建议我复现：是——至少跑一次 pose → 视频的 minimal demo。

一句话判断：你 climbing app 解决 "训练数据不够" 的最强外挂。

Repo 2：anthropics/claude-code（含 Claude Agent SDK）

GitHub 链接：https://github.com/anthropics/claude-code

方向标签：agent / coding / dev tools

这项目是干什么的：Anthropic 官方 Claude Code + Agent SDK 仓库；当前最完整的商用级 coding agent 参考实现。

为什么今天值得关注：Sonnet 5 的 2M context 已稳定；和 OpenAI Symphony / Block Goose 形成 "云优先 / 团队级 / 本地优先 " 三角对照。

与我的相关性：高

上手成本：低

是否建议我收藏：是

是否建议我复现：是——基于 SDK 写一个 climbing video → 动作摘要的最小 agent。

一句话判断：你做 agent 项目的事实工具链。

Repo 3：openai/symphony

GitHub 链接：https://github.com/openai/symphony

方向标签：agent / orchestration / coding

这项目是干什么的：OpenAI 的项目级 isolated coding agent 编排系统。

为什么今天值得关注：与新捐出的 Goose 形成 "云端封闭 vs 本地中立" 的清晰对比，面试可作为 coding agent 演化路线案例。

与我的相关性：高

上手成本：中

是否建议我收藏：是

是否建议我复现：是——和 Goose 各跑一次最小项目，写一篇对比 note。

一句话判断：理解 "团队级 coding agent" 抽象的最佳样本。

Repo 4：facebookresearch/sam3

GitHub 链接：https://github.com/facebookresearch/sam3

方向标签：video / segmentation / multimodal

这项目是干什么的：Meta SAM 3 / 3.1 推理与 finetune 代码；text-prompt 视频分割追踪事实标准。

为什么今天值得关注：在 Cosmos pose-conditioning 路径里，SAM 3.1 是 "出 climber/hand/foot/hold mask" 的标配前序步骤。

与我的相关性：极高

上手成本：中

是否建议我收藏：是

是否建议我复现：是——直接拿你自己的攀岩视频跑。

一句话判断：你 app 视频前处理 pipeline 的第一段。

Repo 5：QwenLM/Qwen3-VL

GitHub 链接：https://github.com/QwenLM/Qwen3-VL

方向标签：multimodal / video / open-source

这项目是干什么的：阿里 Qwen3-VL 全系列（2B/4B/8B/32B），支持视频。

为什么今天值得关注：在 Nemotron 3 Nano Omni 出来之前，是开源视频理解的首选；现在两者可以做对照实验。

与我的相关性：中-高

上手成本：中

是否建议我收藏：是

是否建议我复现：用 Qwen3-VL-8B vs Nemotron 3 Nano Omni 跑同一段攀岩视频，比 latency + 描述质量。

一句话判断：开源视频理解的本地化双候选之一。

Repo 6：caramaschiHG/awesome-ai-agents-2026

GitHub 链接：https://github.com/caramaschiHG/awesome-ai-agents-2026

方向标签：agent / curation

这项目是干什么的：300+ agent 框架/工具/产品分类，月更。

为什么今天值得关注：Goose / Symphony / LangChain deepagents 都已收录，技术选型时翻一遍最快。

与我的相关性：中

上手成本：低

是否建议我收藏：是

是否建议我复现：N/A，watch 即可。

一句话判断：做技术选型先翻它，比每次重新搜快 3 倍。

Repo 7：langchain-ai/deepagents

GitHub 链接：https://github.com/langchain-ai/deepagents

方向标签：agent / harness / deployment

这项目是干什么的：LangChain/LangGraph 的 agent harness，自带 planning tool / filesystem backend / subagent 能力；deepagents deploy 一行命令上生产。

为什么今天值得关注：是 "我不想自己撸 harness 但又要可控" 的中间道路；和 OpenAI Agents SDK / Claude Agent SDK 形成第三选项。

与我的相关性：中

上手成本：中

是否建议我收藏：是

是否建议我复现：可选——如果你 climbing app 后端要做 long-running agent，先看它的 planning tool 设计再决定是否引入 LangGraph。

一句话判断：LangChain 重新找回工程化定位的代表项目。

警告 ⚠️：

Hermes Agent（4 月 5–13 单周 +32k stars）："closed-loop self-evolution" 概念听起来酷，但 "自动 skill 提炼" 缺乏严肃 eval，热度高，但价值待验证——观察就行，不要立刻 all-in。

OpenClaw（300k+ stars）：仍处于生态塑形期，文档碎片化；适合长期观察，不适合现在拿来当 dev daily driver。

persona-distillation 类仓库（zhangxuefeng-skill / khazix-skills 等）：本周扎堆出现，多数是 prompt 资产堆叠，不要全装——挑一个深度用足够。

四、今日最值得我看的 3 篇 / 3 个链接

1. NVIDIA Cosmos World Foundation Models 主页 + Cosmos Transfer 文档

为什么是今天最值得点开：是你 climbing app "训练数据不够" 这个核心瓶颈的现成解法——pose-conditioned 可控视频合成，第一次到生产级。

链接：https://www.nvidia.com/en-us/ai/cosmos/

2. Nemotron 3 Nano Omni 发布博客

为什么是今天最值得点开：当前性价比最好的开放多模态 backbone，原生统一 vision/audio/language + 256K context；和 Qwen3-VL 直接对照。

链接：https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/

3. AscentAI App 的指标体系页面（Google Play）

为什么是今天最值得点开：直接给你 climbing app v0 的 4 个 KPI（center-of-mass / velocity / fluidity / immobility ratio），省掉自己摸索两周。

链接：https://play.google.com/store/apps/details?id=com.jonasdeuchler.ascendai

五、今日行动清单（最重要）

1. 今天值得收藏但不必立刻看：

LangChain April newsletter（LangSmith Fleet + 30+ evaluator + deepagents deploy）

OpenAI Agents SDK 演化博客（harness 抽象趋势）

Lightning Pose 3D 不确定性框架（动物 pose，需要适配人体）

Black Hat Asia agentic security 报告原文（待原始 deck 出炉再看）

2. 今天值得精读：

NVIDIA Cosmos Transfer 的 pose-conditioning 接口与示例（约 30 分钟）

Nemotron 3 Nano Omni 的 EVS（efficient video sampling）部分（约 20 分钟）

AscentAI 4 个量化指标定义页面（约 10 分钟）

3. 今天值得复现 / 试用：

跑 SAM 3.1 → 4DHumans → Cosmos Transfer minimal pipeline（你自己一段攀岩视频，输出合成视频）

用 Nemotron 3 Nano Omni 跑同一段视频做 "动作描述 + 改进建议 " prompt，对照 Qwen3-VL-8B

用 YOLO26-Pose 在手机端跑实时 pose（验证 on-device 路径可行性）

4. 今天值得记到项目 roadmap（攀岩 app）：

数据：把 "Cosmos Transfer pose-conditioned 合成视频" 列为正式数据扩充手段（与 ClimbingCap / The Way Up 真实数据混合）。

视觉 pipeline：(a) 端侧 YOLO26-Pose 实时反馈；(b) 云侧 SAM 3.1 + 4DHumans + Nemotron 3 Nano Omni / Sonnet 5 双路径深度报告。

指标体系：v0 直接采用 AscentAI 的 4 KPI，再叠加 "动作改进建议可执行度"（差异化）。

安全：从 v0 起 sandbox + capability scoping + audit log（受 Black Hat Asia 数据驱动，不是过度工程）。

架构：参考 Goose 的 local-first + MCP + multi-backend 三角。

5. 今天面试可以拿来讲的 1–2 个点：

(高优先) "agent 工程的两个反共识：reasoning ≠ reliability（ICLR 2026 Reasoning Trap）+ capability ≠ safety（Black Hat Asia 5 月→10 小时数据）" ——一个学术、一个工业，反差强、信息密度高。

"我用 NVIDIA Cosmos Transfer 做 pose-conditioned 攀岩视频合成，解决数据稀缺问题；视觉 pipeline 走端侧 YOLO26-Pose 实时 + 云侧 SAM 3.1 / 4DHumans / Nemotron 3 Nano Omni 双路径 " ——能体现你跟踪 4 月最新一手发布 + 端到端系统设计 + 成本/质量分层。

六、信息密度 / 信噪比说明

今天有 3 件硬货：Gemini 3.1 Ultra 多模态 + 2M、Nemotron 3 Nano Omni、Cosmos pose-conditioned video generation；Cosmos 对你攀岩 app 是结构性利好，单独拎出来看就够本周价值。

一手源不足时使用了 llm-stats.com 与 fazm.ai 的聚合摘要（已分别注明 "待验证"）；OpenAI 智能手机一条标记为待验证。

今天没有重磅 Anthropic / Apple ML 新发布，没有硬凑。

skills 生态本周降温，相比上周（superpowers / mattpocock/skills 爆发）信号减弱；继续保持 "挑 1 个深度学" 的策略，不必每周复盘。

自动生成于 2026-05-01 by AI 日报 scheduled task。