📰AI 日报 | 2026-05-01
type
Post
status
Published
date
May 1, 2026
slug
summary
今日重点:Google Gemini 3.1 Ultra 上线 (2M context + 原生多模态 + sandboxed code exec);OpenAI 打破微软独家绑定,GPT-5.5 + Codex 登陆 AWS Bedrock;NVIDIA 双发 Nemotron 3 Nano Omni (30B-A3B MoE,Conv3D,256K) 与 Cosmos 物理 AI 平台升级;Block 把内部 coding agent Goose 捐给 Linux Foundation;Black Hat Asia 警告 agentic offensive security 把 bug→exploit 时间从 5 个月压到 10 小时。攀岩 app 重点:Cosmos Transfer 接受 pose/segmentation/depth/lidar 作为可控视频生成输入,YOLO26-pose 实时关键点教程已发,Lightning Pose 3D 不确定性框架适合数据稀缺场景。
tags
新闻
开发
思考
category
技术分享
icon
📰
password
Comment
Hide
今日基调:模型层进入分布式发行期——OpenAI/Microsoft 独家结束、GPT-5.5 上 AWS、Gemini 3.1 Ultra 拿下 2M token 原生多模态、NVIDIA 推 Nemotron 3 Nano Omni;Agent 工程出现两个值得记的信号——Block 把 Goose 捐给 Linux Foundation(中立化)+ Black Hat Asia 警告 agent 攻防能力质变;视觉/物理 AI 一侧 Cosmos 升级把 pose/depth/lidar 当作可控视频生成的一等输入,对你攀岩 app 的合成数据 pipeline 有直接启发。

一、今日最重要的 5 条

1. Google Gemini 3.1 Ultra 发布:2M context + 原生多模态 + sandboxed code execution
  • 发生了什么:Gemini 3.1 Ultra 上线,2M token 上下文原生跨 text/image/audio/video(无需 transcription 中转),并附带 sandboxed Code Execution tool,可在对话中直接写、跑、测代码。
  • 为什么重要:把 "长上下文 + 真多模态 + 自带代码沙盒" 三件事压到一个模型里——这是和 Claude Sonnet 5 的 2M / GPT-5.5 的 agentic harness 的正面对比;多模态侧不再走 ASR/transcription 这条已被诟病的退化路径。
  • 对你:你的攀岩 app 如果走 "视频 → 动作分析 → 文本反馈" 路径,Gemini 3.1 Ultra 是当前唯一一个不强迫你先把视频降维成 frame 描述的旗舰;至少要把它列入双路径的高质量分支候选。
2. OpenAI 终结微软独家绑定:GPT-5.5 上 AWS Bedrock,Codex 登陆 AWS
  • 发生了什么:2019 年起的 Microsoft 独家承运合同结束(IP 授权延续到 2032,但服务承运不再独家);GPT-5.5 已通过 Amazon Bedrock 提供,Codex 同步上 AWS,并出现 Bedrock Managed Agents powered by OpenAI。
  • 为什么重要:意味着前沿模型的发行从 "绑死一家云" 转向 "多云 commodity";对企业选型是天大的好消息,对 Microsoft 是结构性损失,对 AWS 是一次性补全。
  • 对你:side project / 求职项目里再用 Azure OpenAI 已经没有故事价值;做 portfolio 时直接讲 "我同时在 Bedrock + Vertex 上跑同一 agent 做对照" 就有反差感。
3. NVIDIA 双发:Nemotron 3 Nano Omni(4 月 28 号)+ Cosmos 物理 AI 平台升级
  • 发生了什么:Nemotron 3 Nano Omni 是 30B-A3B 混合 MoE,原生统一 vision/audio/language,含 Conv3D + EVS、256K context,HF + OpenRouter + 25+ 平台同步上架;同期 Cosmos World Foundation Models 发布大版本——Cosmos Transfer 直接吃 segmentation map / depth map / lidar / pose estimation map / trajectory map 生成可控 photoreal 视频。
  • 为什么重要:(a) Nemotron 3 Nano Omni 是当前性价比最好的一档开放多模态,9× 效率提升,便于 agent 场景大规模 inference;(b) Cosmos 把 pose 升级为 "可控视频合成的一等输入"——这是 sports analytics / 动作分析 数据增强路径上一次范式级跃迁。
  • 对你(攀岩 app):Cosmos Transfer 是"用少量真实攀岩视频 + pose 蓝图 → 合成大量 photoreal 训练视频"的现成工具;这条数据增强路径直接缓解你 "自己拍视频太少" 的核心约束。
4. Block 把内部 coding agent Goose 捐给 Linux Foundation
  • 发生了什么:Block(前 Square)把内部使用的 AI coding agent Goose 捐赠给 Linux Foundation;Rust 写、本地运行、通过 MCP 接外部工具、支持多 LLM backend。
  • 为什么重要:是第一个被中立基金会托管的、企业级、本地优先 coding agent——和 OpenAI Symphony(云优先)、Cursor(IDE 优先)、Devin(封闭服务)形成第四条路。
  • 对你:本地优先 + Rust + 多 backend 的组合非常适合做 "climbing app 后端 agent" 的最小依赖原型;面试讲 coding agent 演化路线时,加上 Goose 这条线会让你显得真的在跟踪生态。
5. Black Hat Asia 警告(4 月 27 号):agentic offensive security 把 bug→exploit 从 5 个月压到 10 小时
  • 发生了什么:4 月 27 号 Black Hat Asia 上的报告显示,2023 年 bug-to-exploit 平均 5 个月,2026 年因前沿 LLM 加 agent harness 已压到 10 小时。
  • 为什么重要:这是安全侧能力跃迁的硬数据,意味着所有暴露 LLM 工具调用 / 文件写入 / 命令执行的 agent 都进入了 1-day exploit 风险区;不是恐慌,是工程现实。
  • 对你:你做 agent 时把 sandboxing / capability scoping / audit log 当作默认前置——这正好与上周 Reasoning Trap 论文的 "reasoning ≠ reliability" 形成完整安全 narrative,面试可以一起讲。

二、按目标分类

A. 前沿模型 / 一手发布

A1. Google Gemini 3.1 Ultra
  • 事件:2M token 上下文,原生跨 text/image/audio/video(无 transcription 中转),sandboxed Code Execution tool 内置。
  • 核心内容:把 long context + true multimodal + 自带代码沙盒 三件事压到一个 endpoint。
  • 为什么重要:是 Sonnet 5(2M、强 agent)/ GPT-5.5(agentic harness)之外,第一个真把视频/音频当一等输入的旗舰;agentic 场景下 "模型自己跑代码" 不再需要外挂 sandbox。
  • 我需不需要点开:需要,重点看 video understanding 子项与 code execution sandbox 的限额/隔离设计。
A2. NVIDIA Nemotron 3 Nano Omni(4 月 28 号)
  • 事件:30B-A3B 混合 MoE,原生 vision + audio + language,Conv3D + EVS(efficient video sampling),256K context。
  • 核心内容:声称在 agent 任务上比上一代 9× 效率提升;HF / OpenRouter / 25+ 平台同步上架。
  • 为什么重要:当前性价比最好的开放多模态 backbone——可在 agent 场景下做大规模 inference 而不被 API 费用卡死。
  • 我需不需要点开:需要,且建议直接拉到本地试 video 输入 latency。
A3. NVIDIA Cosmos World Foundation Models 大版本(4 月)
  • 事件:Cosmos Transfer / Predict 升级,吃 segmentation / depth / lidar / pose / trajectory 作为可控输入;首批合作方含 Agility Robotics / Figure AI / Skild AI / Uber。
  • 核心内容:开放 model license 上 HF;推出 Open Physical AI Data Factory Blueprint 蓝图。
  • 为什么重要:把 "pose-conditioned controllable video generation" 从论文级落到生产级;对 sports / 动作 / 机器人三条赛道都有外溢。
  • 我需不需要点开:需要,特别是 Cosmos Transfer 的 pose-conditioning 入口。
A4. OpenAI GPT-5.5 上 AWS Bedrock + Codex 登陆 AWS
  • 事件:Microsoft 独家承运结束,OpenAI 同时在 AWS、Google Cloud 上线服务;Bedrock 出 Managed Agents powered by OpenAI。
  • 核心内容:模型分发从单云到多云 commodity 化。
  • 为什么重要:企业选型门槛降低;同时意味着 "用 OpenAI = 给 MSFT 钱" 的 narrative 终结。
  • 我需不需要点开:,关注 Bedrock Managed Agents 的 trace/eval 集成。
A5. Anthropic 节奏盘点(无新旗舰)
  • 事件:4 月没有新模型首发,Sonnet 5 / Opus 4.7 / Agent SDK 维持稳态;Google 对 Anthropic 的 $40B 投资公告(4 月 24 号)继续主导生态新闻。
  • 核心内容:Anthropic 处于消化 4 月旗舰 + 等待下一个大版本的 "维护期"。
  • 为什么重要:意味着 "Claude 生态投入 " 短期不会被自家版本快速替代——你做基于 Claude 的项目 ROI 更稳。
  • 我需不需要点开:,记住事实即可。

B. AI 工程 / Agent / Coding workflow

B1. Block 捐 Goose 给 Linux Foundation
  • 内容:企业级 coding agent,Rust 实现,本地优先,MCP 工具协议,多 LLM backend。
  • 可落地价值:是 "本地优先 + 中立托管" coding agent 的代表;可作为 Symphony / Cursor / Devin 之外的第四条路径模板。
  • 对我当前开发/学习的意义:你的 climbing app 后端 agent 如果想保留 "本地推理 fallback" 路径,Goose 的架构是当前最干净的参考;面试讲 coding agent 演化时把它放进列表很加分。
B2. LangChain 生态:LangSmith Fleet + 30+ evaluator 模板 + deepagents deploy
  • 内容:LangSmith 内置 30+ evaluator(safety/response quality/trajectory/multimodal),cost alerting;接入 Arcade.dev 7,500+ 工具;deepagents deploy 一行命令拉起可水平扩展生产服务。
  • 可落地价值:把 agent eval / 工具市场 / 部署 三件事补全到企业可用门槛。
  • 对我当前开发/学习的意义:trajectory + multimodal evaluator 模板可直接套到你 climbing 视频反馈 agent 上;不再需要手写 eval pipeline。注意:是否真用 LangChain 抽象仍可争论,但 LangSmith 作为 eval 平台单独使用价值很高。
B3. Black Hat Asia 数据:bug→exploit 5 个月压到 10 小时(4 月 27 号)
  • 内容:agentic offensive security 让 1-day 漏洞利用从月级变成小时级。
  • 可落地价值:所有暴露 tool-call / file-write / shell 的 agent 都进入新威胁模型;sandboxing 从可选变默认。
  • 对我当前开发/学习的意义:你做 agent 时第一道工序就是 capability scoping + audit log;和上周 Reasoning Trap 论文打包,可形成 "agent 工程的两个反共识" 面试故事——一个学术,一个工业。
B4. OpenAI Agents SDK 演化方向 + Bedrock Managed Agents
  • 内容:OpenAI 把 Codex 的 harness(指令、工具、审批、tracing、resume bookkeeping)抽象给开发者;Bedrock 上线 Managed Agents powered by OpenAI。
  • 可落地价值:长跑 agent + sandbox code execution + 中断恢复 已经是托管服务标配,不再需要自己撸 harness。
  • 对我当前开发/学习的意义:写自己 agent harness 的 ROI 在下降;把精力压到 "业务侧 skill / tool 设计" 比重做 harness 更有面试价值。

C. 视觉 / 视频 / 运动人体分析(攀岩 app 重点)

C1. NVIDIA Cosmos Transfer:pose-conditioned controllable video generation
  • 内容:Cosmos Transfer 接受 segmentation / depth / lidar / pose / trajectory map 作为输入,输出可控 photoreal 视频。
  • 与攀岩 app 相关性:极高——直接对应你的 "自己视频太少" 痛点:用少量真实视频 + pose 序列合成大量 photoreal 训练视频。
  • 可迁移到项目的点:(a) 用 SAM 3.1 提取 climber mask;(b) 4DHumans 出 3D pose 序列;(c) Cosmos Transfer 以 pose 蓝图生成不同墙面/光照的合成视频;(d) 用合成数据扩充攀岩动作识别训练集。
  • 优先级:
C2. Lightning Pose 3D(4 月 23 号,Columbia / Kavli)
  • 内容:multi-view 动物 pose estimation 不确定性框架,用新颖训练 + post-processing 解决标注少 + uncertainty 估计差的问题。
  • 与攀岩 app 相关性:中-高——你属于 "标注极少 + 自遮挡多" 场景,不确定性估计直接关联 "动作建议是否敢给"。
  • 可迁移到项目的点:post-processing 框架可套到人体 pose;不确定性输出可用作 "反馈置信度"——置信度低时不给具体建议而是请用户提供更多机位。
  • 优先级:(动物 → 人体迁移需要适配)
C3. YOLO26-Pose 实时关键点(教程 4 月 21 号)
  • 内容:YOLO26 的 pose 子任务实时关键点估计,附 LearnOpenCV 教程。
  • 与攀岩 app 相关性:——是 mobile / edge 侧最容易部署的 baseline。
  • 可迁移到项目的点:作为 "on-device 快速 pose" 路径(Cosmos Transfer / 4DHumans 是 server 侧重路径);建议双路径,端侧实时给反馈、云侧出深度报告。
  • 优先级:
C4. "3D human pose-based action recognition for industrial scenarios"(Volume 92, April 2026)
  • 内容:2D pose → 3D 重建 → graph convolutional 动作识别 三阶段 pipeline,工业场景。
  • 与攀岩 app 相关性:——同一 pipeline 可直接迁移到攀岩动作识别,且工业场景的 self-occlusion 与攀岩相似。
  • 可迁移到项目的点:(a) GCN 在 pose-based action recognition 上仍是稳健 baseline;(b) 攀岩动作分类标签设计可参考其工业动作分类粒度。
  • 优先级:
C5. 现存攀岩 AI 应用扫盘(Belay AI / AscentAI / Climbah / ClimbAlong SPOT)
  • 内容:Belay AI(视觉 + 实时反馈)、AscentAI(center-of-mass / velocity / fluidity / immobility ratio 量化指标,2 月更新)、Climbah(个性化训练计划 + 视频分析)、ClimbAlong SPOT(基于摄像头的 routesetting 数据自动化)。
  • 与攀岩 app 相关性:极高——这是你的直接竞品/参考。
  • 可迁移到项目的点:AscentAI 的 4 个量化指标(center-of-mass / velocity / fluidity / immobility ratio)是当前业界共识的 climbing motion KPI 集——你的 app 可以直接抄这个指标体系起手,再叠加自己的差异化(如 "动作改进建议生成")。
  • 优先级:

D. 产品化 / 商业化 / 行业动态

D1. OpenAI 多云化 + Microsoft 独家结束
  • 动态:Microsoft IP 授权延续到 2032,但 OpenAI 服务承运不再独家;GPT-5.5 + Codex 上 AWS。
  • 背后的趋势判断:前沿模型从 "绑死一家云" 转向 commodity;Microsoft 失去 distribution lock-in,AWS 一次性补齐缺口。
  • 对 side project / 求职 / 项目方向的启发:portfolio 中讲 "在 Bedrock + Vertex 上跑同一 agent 做对照实验" 比单云 Azure OpenAI 更有 narrative。
D2. NVIDIA 物理 AI 联合发布(Boston Dynamics / Caterpillar / Figure / LG / NEURA / Skild)
  • 动态:NVIDIA 发布新物理 AI 模型,多家机器人厂商同步发布基于其平台的下一代机器人。
  • 背后的趋势判断:物理 AI 已经从 "demo 时代" 进入 "OEM 集成时代"——这意味着传感器/姿态/运动数据将成为核心 IP。
  • 对 side project / 求职 / 项目方向的启发:sports analytics + 物理 AI 中间地带("用机器人物理模型评估人类运动")目前几乎没人做;做攀岩 app 时可以加一条 "力学合理性 " 维度,差异化更明显。
D3. OpenAI 据传与 MediaTek + Qualcomm 合作做 AI-first 智能手机
  • 动态:传 OpenAI 在做基于 agent 而非 app 的智能手机,MediaTek/Qualcomm 提供 SoC。
  • 背后的趋势判断:"端侧 AI agent 替代传统 app" 是当前最大的产品形态押注;如果成立,移动端 AI engineer / on-device LLM 工程师价值显著上升。
  • 对 side project / 求职 / 项目方向的启发:把 climbing app 做成 "on-device 实时 + 云端深度" 双路径,是符合这个未来形态的设计。
D4. 攀岩行业 AI 落地真实进度
  • 动态:Climbah / Belay AI / AscentAI 都已在 App Store / Google Play 上线;ClimbAlong SPOT 与 Techtopia 在 gym B2B 落地。
  • 背后的趋势判断:C 端攀岩 AI 已经从概念进入 "上架竞争" 阶段;差异化要靠 (a) 反馈具体度 (b) UX (c) 数据壁垒。
  • 对 side project / 求职 / 项目方向的启发:你的 app 不能 再以 "做出来" 为目标,必须从第一版就想清楚差异化点(建议从 "动作改进建议的可执行度" 切入——竞品都偏量化指标,建议层薄)。

E. 学习价值 / 求职价值

E1. NVIDIA Cosmos Transfer + Nemotron 3 Nano Omni 一体化文档
  • 适合我怎么用:精读 + 复现
  • 推荐动作:先精读 Cosmos Transfer 的 pose-conditioning 接口(30 分钟),然后用 Nemotron 3 Nano Omni 跑一段你拍的攀岩视频,量化 latency / 描述质量;这两步可以构成你 portfolio 的 "合成数据 + 多模态视频理解 " 子项目。
E2. Black Hat Asia agentic offensive security 数据
  • 适合我怎么用:面试表达
  • 推荐动作:和上周 ICLR 2026 "Reasoning Trap" 打包成 "agent 工程的两个反共识:reasoning ≠ reliability + capability ≠ safety" 90 秒口述。
E3. AscentAI 公开的 4 个量化指标(center-of-mass / velocity / fluidity / immobility ratio)
  • 适合我怎么用:写进项目 roadmap
  • 推荐动作:直接把这 4 个指标作为你 climbing app 的 v0 KPI;在此之上加一条 "动作改进建议可执行度" 作为差异化指标。
E4. Goose(Block → Linux Foundation)
  • 适合我怎么用:收藏 + 选择性精读
  • 推荐动作:精读 Goose 的 architecture overview(不要看实现细节),重点看它的 "local-first + MCP + multi-backend" 三角;这套架构思想可以直接搬到你 climbing app 的 agent backend。

三、今日高分 GitHub Repo(精选 7 个)

Repo 1:NVIDIA / Cosmos
  • 方向标签:world model / video generation / physical AI
  • 这项目是干什么的:NVIDIA 的世界基础模型平台,含 Transfer / Predict / Reason 三类 WFM;用 segmentation/depth/lidar/pose/trajectory 作为可控视频生成输入。
  • 为什么今天值得关注:4 月 Cosmos 大版本同步发布,pose-conditioning 是直接对应攀岩动作合成数据增强的现成入口。
  • 与我的相关性:极高
  • 上手成本:中-高(GPU 资源要求不低,但 HF 上有 demo 模型)
  • 是否建议我收藏:
  • 是否建议我复现:——至少跑一次 pose → 视频的 minimal demo。
  • 一句话判断:你 climbing app 解决 "训练数据不够" 的最强外挂。
Repo 2:anthropics/claude-code(含 Claude Agent SDK)
  • 方向标签:agent / coding / dev tools
  • 这项目是干什么的:Anthropic 官方 Claude Code + Agent SDK 仓库;当前最完整的商用级 coding agent 参考实现。
  • 为什么今天值得关注:Sonnet 5 的 2M context 已稳定;和 OpenAI Symphony / Block Goose 形成 "云优先 / 团队级 / 本地优先 " 三角对照。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——基于 SDK 写一个 climbing video → 动作摘要 的最小 agent。
  • 一句话判断:你做 agent 项目的事实工具链。
Repo 3:openai/symphony
  • 方向标签:agent / orchestration / coding
  • 这项目是干什么的:OpenAI 的项目级 isolated coding agent 编排系统。
  • 为什么今天值得关注:与新捐出的 Goose 形成 "云端封闭 vs 本地中立" 的清晰对比,面试可作为 coding agent 演化路线案例。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——和 Goose 各跑一次最小项目,写一篇对比 note。
  • 一句话判断:理解 "团队级 coding agent" 抽象的最佳样本。
Repo 4:facebookresearch/sam3
  • 方向标签:video / segmentation / multimodal
  • 这项目是干什么的:Meta SAM 3 / 3.1 推理与 finetune 代码;text-prompt 视频分割追踪事实标准。
  • 为什么今天值得关注:在 Cosmos pose-conditioning 路径里,SAM 3.1 是 "出 climber/hand/foot/hold mask" 的标配前序步骤。
  • 与我的相关性:极高
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:——直接拿你自己的攀岩视频跑。
  • 一句话判断:你 app 视频前处理 pipeline 的第一段。
Repo 5:QwenLM/Qwen3-VL
  • 方向标签:multimodal / video / open-source
  • 这项目是干什么的:阿里 Qwen3-VL 全系列(2B/4B/8B/32B),支持视频。
  • 为什么今天值得关注:在 Nemotron 3 Nano Omni 出来之前,是开源视频理解的首选;现在两者可以做对照实验。
  • 与我的相关性:中-高
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:用 Qwen3-VL-8B vs Nemotron 3 Nano Omni 跑同一段攀岩视频,比 latency + 描述质量。
  • 一句话判断:开源视频理解的本地化双候选之一。
Repo 6:caramaschiHG/awesome-ai-agents-2026
  • 方向标签:agent / curation
  • 这项目是干什么的:300+ agent 框架/工具/产品分类,月更。
  • 为什么今天值得关注:Goose / Symphony / LangChain deepagents 都已收录,技术选型时翻一遍最快。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A,watch 即可。
  • 一句话判断:做技术选型先翻它,比每次重新搜快 3 倍。
Repo 7:langchain-ai/deepagents
  • 方向标签:agent / harness / deployment
  • 这项目是干什么的:LangChain/LangGraph 的 agent harness,自带 planning tool / filesystem backend / subagent 能力;deepagents deploy 一行命令上生产。
  • 为什么今天值得关注:是 "我不想自己撸 harness 但又要可控" 的中间道路;和 OpenAI Agents SDK / Claude Agent SDK 形成第三选项。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:可选——如果你 climbing app 后端要做 long-running agent,先看它的 planning tool 设计再决定是否引入 LangGraph。
  • 一句话判断:LangChain 重新找回工程化定位的代表项目。
警告 ⚠️:
  • Hermes Agent(4 月 5–13 单周 +32k stars):"closed-loop self-evolution" 概念听起来酷,但 "自动 skill 提炼" 缺乏严肃 eval,热度高,但价值待验证——观察就行,不要立刻 all-in。
  • OpenClaw(300k+ stars):仍处于生态塑形期,文档碎片化;适合长期观察,不适合现在拿来当 dev daily driver
  • persona-distillation 类仓库(zhangxuefeng-skill / khazix-skills 等):本周扎堆出现,多数是 prompt 资产堆叠,不要全装——挑一个深度用足够。

四、今日最值得我看的 3 篇 / 3 个链接

1. NVIDIA Cosmos World Foundation Models 主页 + Cosmos Transfer 文档
  • 为什么是今天最值得点开:是你 climbing app "训练数据不够" 这个核心瓶颈的现成解法——pose-conditioned 可控视频合成,第一次到生产级。
2. Nemotron 3 Nano Omni 发布博客
  • 为什么是今天最值得点开:当前性价比最好的开放多模态 backbone,原生统一 vision/audio/language + 256K context;和 Qwen3-VL 直接对照。
3. AscentAI App 的指标体系页面(Google Play)
  • 为什么是今天最值得点开:直接给你 climbing app v0 的 4 个 KPI(center-of-mass / velocity / fluidity / immobility ratio),省掉自己摸索两周。

五、今日行动清单(最重要)

1. 今天值得收藏但不必立刻看:
  • LangChain April newsletter(LangSmith Fleet + 30+ evaluator + deepagents deploy)
  • OpenAI Agents SDK 演化博客(harness 抽象趋势)
  • Lightning Pose 3D 不确定性框架(动物 pose,需要适配人体)
  • Black Hat Asia agentic security 报告原文(待原始 deck 出炉再看)
2. 今天值得精读:
  • NVIDIA Cosmos Transfer 的 pose-conditioning 接口与示例(约 30 分钟)
  • Nemotron 3 Nano Omni 的 EVS(efficient video sampling)部分(约 20 分钟)
  • AscentAI 4 个量化指标定义页面(约 10 分钟)
3. 今天值得复现 / 试用:
  • 跑 SAM 3.1 → 4DHumans → Cosmos Transfer minimal pipeline(你自己一段攀岩视频,输出合成视频)
  • 用 Nemotron 3 Nano Omni 跑同一段视频做 "动作描述 + 改进建议 " prompt,对照 Qwen3-VL-8B
  • 用 YOLO26-Pose 在手机端跑实时 pose(验证 on-device 路径可行性)
4. 今天值得记到项目 roadmap(攀岩 app):
  • 数据:把 "Cosmos Transfer pose-conditioned 合成视频" 列为正式数据扩充手段(与 ClimbingCap / The Way Up 真实数据混合)。
  • 视觉 pipeline:(a) 端侧 YOLO26-Pose 实时反馈;(b) 云侧 SAM 3.1 + 4DHumans + Nemotron 3 Nano Omni / Sonnet 5 双路径深度报告。
  • 指标体系:v0 直接采用 AscentAI 的 4 KPI,再叠加 "动作改进建议可执行度"(差异化)。
  • 安全:从 v0 起 sandbox + capability scoping + audit log(受 Black Hat Asia 数据驱动,不是过度工程)。
  • 架构:参考 Goose 的 local-first + MCP + multi-backend 三角。
5. 今天面试可以拿来讲的 1–2 个点:
  • (高优先) "agent 工程的两个反共识:reasoning ≠ reliability(ICLR 2026 Reasoning Trap)+ capability ≠ safety(Black Hat Asia 5 月→10 小时数据)" ——一个学术、一个工业,反差强、信息密度高。
  • "我用 NVIDIA Cosmos Transfer 做 pose-conditioned 攀岩视频合成,解决数据稀缺问题;视觉 pipeline 走端侧 YOLO26-Pose 实时 + 云侧 SAM 3.1 / 4DHumans / Nemotron 3 Nano Omni 双路径 " ——能体现你跟踪 4 月最新一手发布 + 端到端系统设计 + 成本/质量分层。

六、信息密度 / 信噪比说明

  • 今天有 3 件硬货:Gemini 3.1 Ultra 多模态 + 2M、Nemotron 3 Nano Omni、Cosmos pose-conditioned video generation;Cosmos 对你攀岩 app 是结构性利好,单独拎出来看就够本周价值。
  • 一手源不足时使用了 llm-stats.comfazm.ai 的聚合摘要(已分别注明 "待验证");OpenAI 智能手机一条标记为待验证。
  • 今天没有重磅 Anthropic / Apple ML 新发布,没有硬凑。
  • skills 生态本周降温,相比上周(superpowers / mattpocock/skills 爆发)信号减弱;继续保持 "挑 1 个深度学" 的策略,不必每周复盘。
  • 自动生成于 2026-05-01 by AI 日报 scheduled task。
AI 日报 | 2026-05-02AI 日报 | 2026-04-30
Loading...