🤖AI 日报 | 2026-04-01
type
Post
status
Published
date
Apr 1, 2026
slug
ai-daily-2026-04-01
summary
2026-04-01 AI 日报:OpenAI Sora 正式关停(日烧 $1M)、Google Veo 3.1 Lite 低成本视频生成上线、Gemini 3.1 Pro ARC-AGI-2 达 77.1% 登顶推理榜、OpenCap Monocular 单摄 3D 运动捕捉新论文、oh-my-claudecode 团队多 Agent 编排火热。
tags
新闻
开发
思考
category
技术分享
icon
password
Comment
Show
一、今日最重要的 5 条
① OpenAI 正式宣布关停 Sora —— AI 视频市场的一次现实重击(2026-03-24)
Sora app 将于 2026-04-26 关闭,API 将于 2026-09-24 关闭。关停原因:用户峰值约 100 万后暴跌至不足 50 万,日均烧钱约 $1M;OpenAI 战略调整为 coding 工具和企业客户。迪士尼 $10 亿合作计划随之告吹——迪士尼在公告发布前不到 1 小时才被通知。这是「AI 视频生成」第一次大规模商业失败案例,对判断哪些 AI 产品能真正盈利极有参考价值。
② Google Veo 3.1 Lite 正式上线 Gemini API —— 开发者低成本视频时代开始(2026-03-31 发布)
Veo 3.1 Lite 今日通过 Gemini API 和 Google AI Studio 全面开放,定价低于 Veo 3.1 Fast 的 50%,速度相同。支持:文本/图像转视频、720p/1080p、4s/6s/8s 时长、16:9 和 9:16 比例。Google 同步宣布 Veo 3.1 Fast 将于 4 月 7 日进一步降价。时间点:恰好在 OpenAI Sora 关停公告后约 3 天,Google 明显在接盘市场。对攀岩 app:可用于生成「标准动作」示范视频,成本现在已经可控。
③ Gemini 3.1 Pro ARC-AGI-2 达 77.1%,全面超越 Claude Opus 4.6 和 GPT-5.4(2026-02-19)
Gemini 3.1 Pro 在 ARC-AGI-2 上得分 77.1%(Claude Opus 4.6:68.8%,GPT-5.4 Thinking:约 60%),GPQA Diamond 达 94.3%,推理综合能力目前为全球顶级模型第一。ARC-AGI-2 测试模型识别「从未见过的逻辑模式」,是最接近真实推理能力的 benchmark 之一。这意味着「谷歌的模型在推理上不再落后」已是事实。选型时对推理任务应优先测试 Gemini 3.1 Pro。
④ OpenCap Monocular:单手机视频→3D 运动力学,直接命中攀岩 App 技术路线(arXiv 2603.24733,2026-03-25)
斯坦福团队发布 OpenCap Monocular,通过单摄像头视频估计完整 3D 骨骼运动学 + 肌肉骨骼动力学(包括关节扭矩和地面反力)。方法:在 WHAM 姿态估计基础上做生物力学约束优化 + 物理仿真。在步行、深蹲、坐立等任务上与标记式动作捕捉系统验证对齐。对攀岩 App 直接价值:「用户用手机拍视频→提取 3D 动作→生成改进建议」的完整路线现在有成熟开源基础。
⑤ MCP 生态突破 9700 万次安装,Agentic AI Foundation 在 Linux 基金会正式成立
Model Context Protocol(MCP)在 2026 年 3 月突破 9700 万次安装,成为 Agent 连接外部工具的事实标准。Linux 基金会旗下 Agentic AI Foundation 以 Anthropic MCP、OpenAI AGENTS.md、Block goose 为基础正式成立,标志 Agent 互操作标准进入开源治理阶段。现在写 Agent 项目不兼容 MCP 相当于 2015 年写 REST API 不支持 JSON。攀岩 App 的 analysis pipeline 从第一天起就应该 MCP 接口化。
二、按我的目标分类
A. 前沿模型 / 一手发布
Google Veo 3.1 Lite
- 事件:2026-03-31 上线,Google Gemini API 和 AI Studio 可用
- 核心内容:最低成本视频生成模型,低于 Veo 3.1 Fast 50% 定价,支持文本/图像转视频,720p/1080p,最长 8 秒
- 为什么重要:OpenAI Sora 关停后,Google 占据开发者视频 API 市场的关键窗口;定价终于进入「可用于产品」的区间
- 我需不需要点开:需要,重点测试图像转视频(攀岩截图→参考动作视频)的质量
GPT-5.4 / GPT-5.4 mini / GPT-5.4 nano(2026-03-05)
- 事件:OpenAI 三模型系列,GPT-5.4 是「最强通用」,mini/nano 面向轻量场景
- 核心内容:首个原生 computer-use 能力的通用模型;OSWorld-Verified 和 WebArena Verified 双创纪录;GDPval 达 83%(知识工作基准);1M token context;API 版本已上线
- 为什么重要:computer-use 能力内置意味着 Agent 不再需要外挂视觉工具;比 GPT-5.2 少 33% 单条错误
- 我需不需要点开:是,关注 mini/nano 的 API 定价是否适合攀岩 App 高频调用
Gemini 3.1 Pro(2026-02-19)
- 事件:Google DeepMind 发布,ARC-AGI-2 77.1%,全球推理能力榜首
- 核心内容:GPQA Diamond 94.3%,多模态原生支持,实时语音+图像分析,上下文窗口大幅提升
- 为什么重要:在推理基准上第一次明确超越 Anthropic 和 OpenAI,推理类任务的选型从此不应忽略 Google
- 我需不需要点开:是,关注视频理解部分是否有改进;Gemini API 在视频 token 定价上与攀岩 App 的匹配度
B. AI 工程 / Agent / Coding Workflow
oh-my-claudecode —— 团队级多 Agent 编排(2026-03-31 GitHub Trending)
- 内容:Yeachan-Heo 开发,专为多人团队使用 Claude Code 而设计的多 Agent 编排框架,支持结构化任务分发、Agent 状态协调
- 可落地价值:将「architect + developer + reviewer」多 Agent 模式封装成团队可用的工具链
- 对我当前开发/学习的意义:对个人开发者同样适用——单人可模拟多角色 Agent 协作,加速攀岩 App 的功能迭代
- 链接:AIToolly 报道
steipete/claude-code-mcp —— Claude Code 作为 Agent 中的 Agent
- 内容:将 Claude Code 封装为 MCP server,可在其他 Agent 系统中调用 Claude Code 进行单次任务,自动绕过交互式权限确认
- 可落地价值:在 LangGraph/CrewAI 等多 Agent 框架中把 Claude Code 当成「代码执行子 Agent」
- 对我当前开发/学习的意义:攀岩 App 的 pipeline 中可以把代码生成步骤直接外包给 Claude Code MCP
OpenCode —— 厂商中立的 AI 编程终端(122K stars)
- 内容:Anomaly 出品,支持 75+ LLM providers,和 Claude Code/Cursor 直接竞争,月活约 500 万开发者
- 可落地价值:当不想锁定 Anthropic 生态时的替代方案,可随时切换底层模型
- 对我当前开发/学习的意义:测试不同模型在攀岩 App 代码任务上的表现时,OpenCode 是最方便的对比工具
Multi-Agent Architect+Developer+Reviewer 模式进入主流
- 内容:2026 年 2 月起各大工具都发布多 Agent 能力,标准模式是:architect Agent 做计划,developer Agent 写代码,reviewer Agent(多个)做批评和质量检查
- 可落地价值:比单一 Agent 更接近真实工程团队,代码质量显著提升
- 对我当前开发/学习的意义:将攀岩 App 的后端 API 开发套入这个三层 Agent 模式,可以在 24 小时内完成更多功能
C. 视觉 / 视频 / 运动人体分析
OpenCap Monocular(arXiv 2603.24733,2026-03-25)
- 内容:斯坦福出品,单摄像头视频→完整 3D 骨骼运动学 + 关节扭矩 + 地面反力估计。基于 WHAM 姿态估计 + 生物力学约束优化 + 物理仿真。在步行、深蹲、坐立任务上验证,媲美标记动捕
- 与「攀岩动作分析 app」的相关性:极高 —— 这是「手机拍视频→提取 3D 动作数据」的最完整开源方案。攀岩需要分析重心、关节角度、受力点,OpenCap Monocular 提供了这些数据的完整提取路径
- 可迁移到项目的点:用 OpenCap Monocular 替代 MediaPipe 作为更精确的姿态估计基础层;关节扭矩数据可用于「受伤风险」评估模块
- 优先级:高
EfficientVideoAgent (EVA) —— end-to-end 视频 Agent(GitHub: wangruohui/EfficientVideoAgent)
- 内容:强化学习驱动的视频 Agent,「plan-before-perception」架构——先规划看哪段视频,再决定关注哪些帧,最后回答问题。比传统全帧分析节省大量 token
- 与「攀岩动作分析 app」的相关性:中高 —— 长视频(10 分钟攀岩训练)的高效分析是核心挑战,EVA 的选帧策略比暴力抽帧更智能
- 可迁移到项目的点:将 EVA 的「summary-plan-action-reflection」循环移植到攀岩视频分析 pipeline;关键帧自动选择比人工标注节省 80% 标注时间
- 优先级:中
ClimbingCap(arXiv 2503.21268)—— 攀岩全局动作捕捉
- 内容:多模态融合(LiDAR + RGB 摄像头 + IMU)攀岩动作捕捉,在世界坐标系中恢复完整运动轨迹,解决遮挡和复杂背部姿态问题
- 与「攀岩动作分析 app」的相关性:高 —— 最直接的攀岩专项动作捕捉研究,了解当前学术最优方案
- 可迁移到项目的点:用 ClimbingCap 数据集作为攀岩姿态估计的训练数据;其 occlusion handling 方案可借鉴用于遮挡帧的处理
- 优先级:中(LiDAR 硬件要求高,短期以 RGB-only 方案为主)
Google Veo 3.1 Lite —— 低成本视频生成 API(2026-03-31,视觉相关)
- 内容:<50% Veo 3.1 Fast 价格,图像转视频支持,720p/1080p,Gemini API 即用
- 与「攀岩动作分析 app」的相关性:中 —— 生成攀岩标准动作示范视频,用于 app 内「正确 vs 你的动作」对比展示
- 可迁移到项目的点:图像转视频功能可以把静态攀岩图解转为动态示范;可合成训练数据解决标注数据稀缺
- 优先级:中
- 链接:Gemini API 文档 | Gizbot 功能解析
D. 产品化 / 商业化 / 行业动态
OpenAI Sora 关停:AI 视频产品的商业模型困境
- 动态:Sora 用户从峰值 100 万跌至不足 50 万,日烧 $1M,彻底关停。OpenAI 战略转向 coding 工具和企业。Disney $10 亿合作计划同时取消
- 背后的趋势判断:「内容消费型视频生成」(用户自己生成娱乐内容)商业模式跑不通;「开发者 API 型视频生成」(集成进产品)是更健康的变现路径。Google Veo 就是走后一条路
- 对 side project / 求职 / 项目方向的启发:攀岩 App 的视频功能应定位为「分析工具」而非「创作工具」,分析类比创作类更容易转化付费意愿
Google Veo 3.1 Lite:开发者视频 API 市场空缺被迅速填补
- 动态:Sora 宣布关停后 3 天,Google 发布 Veo 3.1 Lite;4 月 7 日 Veo 3.1 Fast 还会再降价
- 背后的趋势判断:视频生成 API 市场 Google 是最有可能的长期赢家(有 YouTube 训练数据优势);开发者应主要押注 Google 而非 OpenAI 的视频 API
- 对 side project / 求职 / 项目方向的启发:攀岩 App 的视频生成模块直接选 Veo API,不需要再等 OpenAI 的替代方案
Luma AI 发布 Unified Intelligence 创意 Agent(2026-03-05)
- 动态:Luma 推出基于自研「Unified Intelligence」模型的创意 Agent 套件,将视频生成、图像生成、3D 生成整合为单一 Agent 流程
- 背后的趋势判断:「创意 AI」从单点工具向 Agent 流程演进,未来不是「用一个工具生成视频」,而是「告诉 Agent 你想要什么然后它跑完整个创作流程」
- 对 side project / 求职 / 项目方向的启发:关注 Luma 的 3D 生成能力,攀岩 App 未来可能用 3D 人体模型替代 2D 视频来展示动作
Huawei 950PR 推断芯片 + AI 基础设施去美化加速
- 动态:华为 950PR 高性能推断芯片发布,售价 70,000 元,专为推断工作负载设计
- 背后的趋势判断:AI 硬件生态的「双轨制」(美国 NVIDIA 生态 vs 中国华为生态)正在固化;DeepSeek V4 已经原生优化华为昇腾
- 对 side project / 求职 / 项目方向的启发:如果做国内部署的 AI 产品,应关注华为芯片的部署成本差异
E. 学习价值 / 求职价值
OpenCap Monocular 论文(arXiv 2603.24733)
- 内容:斯坦福 3D 人体运动力学从单摄像头提取,方法严谨,验证充分,对攀岩 App 技术路线有直接指导意义
- 适合我怎么用:精读 + 复现——读 method 部分理解生物力学约束优化原理;复现并用攀岩视频测试,写成 project portfolio
- 推荐动作:下载论文 → 读 Section 2-3(方法)→ 测试攀岩视频 → 写 blog「单摄像头攀岩动作力学分析」
Sora 失败案例分析
- 内容:产品、财务、战略三个维度的 AI 产品失败分析,覆盖用户留存、成本结构、合作伙伴管理等
- 适合我怎么用:面试表达 —— 把这个案例变成「你对 AI 产品商业化的理解」,展示超越技术的 product sense
- 推荐动作:读 TechCrunch 的两篇深度报道,整理成 3 点关于「AI 产品什么条件下能真正商业化」的判断,面试时讲出来
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.4 benchmark 矩阵
- 内容:三大顶级模型的能力对比(ARC-AGI-2 / GPQA Diamond / SWE-Bench / GDPval / computer-use),形成完整选型知识体系
- 适合我怎么用:收藏 + 面试表达 —— 能清晰说明「不同任务选不同模型」是高级工程师素养
- 推荐动作:整理一张 3×5 对比表(3 个模型 × 5 个基准),贴到 Notion 随时取用
MCP 架构实践(97M installs 背后)
- 内容:MCP 成为 Agent 工具集成的标准协议,理解其设计原则和实际接口对工程实践有直接价值
- 适合我怎么用:复现 —— 在攀岩 App 的视频分析 pipeline 中实现 MCP 接口,既学习协议又有可演示的实际项目
- 推荐动作:读 Anthropic MCP 官方文档 → 在攀岩 App 中实现一个「视频分析」MCP tool → GitHub 上推送
三、今日高分 GitHub Repo(固定栏目)
1. wangruohui/EfficientVideoAgent
- 方向标签:video / agent / eval
- 这项目是干什么的:强化学习驱动的端到端视频理解 Agent,「先规划再感知」架构,自动决定看哪段视频、看多少帧
- 为什么今天值得关注:视频理解的关键瓶颈是「如何高效处理长视频」,EVA 的选帧策略比均匀抽帧或关键帧检测更智能;开源评估代码完整
- 与我的相关性:高——10 分钟攀岩训练视频的高效分析直接需要这种智能选帧能力
- 上手成本:中
- 是否建议我收藏:是
- 是否建议我复现:是,攀岩长视频分析的关键技术
- 一句话判断:视频 Agent 的「聪明采样」方案,攀岩 App 处理长视频的必读 repo
2. steipete/claude-code-mcp
- 方向标签:agent / dev tools
- 这项目是干什么的:把 Claude Code 包装成 MCP server,可以在任何支持 MCP 的 Agent 框架中调用 Claude Code 执行代码任务
- 为什么今天值得关注:MCP 生态突破 9700 万安装的背景下,Claude Code 作为「可编程子 Agent」的价值大幅提升;解锁了 Agent-in-Agent 架构
- 与我的相关性:高——在攀岩 App 的分析 pipeline 中把代码生成步骤委托给 Claude Code MCP
- 上手成本:低
- 是否建议我收藏:是
- 是否建议我复现:是,今天就可以安装试用
- 一句话判断:MCP 生态里最实用的一块积木,10 分钟装完立刻提升 Agent 能力
3. hesreallyhim/awesome-claude-code
- 方向标签:agent / dev tools
- 这项目是干什么的:Claude Code 的 skills、hooks、slash-commands、Agent 编排器、插件的精选合集
- 为什么今天值得关注:oh-my-claudecode 等新工具刚出现,这里是追踪 Claude Code 生态最新动态的一手入口
- 与我的相关性:高——快速了解哪些 Claude Code 插件和工作流可以提升攀岩 App 的开发效率
- 上手成本:低
- 是否建议我收藏:是
- 是否建议我复现:不需要复现,当导航页用
- 一句话判断:Claude Code 生态的「awesome list」,每周刷一次保持工具链最新
4. caramaschiHG/awesome-ai-agents-2026
- 方向标签:agent / app
- 这项目是干什么的:2026 年最全的 AI Agent 框架、工具、资源合集,300+ 资源,20+ 分类,月更
- 为什么今天值得关注:ByteDance 某 repo 以 25k+ stars 登 2026 年 2 月 GitHub 日榜第一,这里收录了;MCP 生态突破后 Agent 工具更新极快,需要定期看
- 与我的相关性:中——快速了解 Agent 生态全貌,选择攀岩 App 后端 Agent 框架时的参考
- 上手成本:低
- 是否建议我收藏:是
- 是否建议我复现:不需要
- 一句话判断:Agent 生态的全景扫描,不确定用什么框架时先翻这里
5. e2b-dev/awesome-ai-agents
- 方向标签:agent / eval
- 这项目是干什么的:AI Agent 项目的权威列表,覆盖从研究到生产的各类 Agent 系统
- 为什么今天值得关注:MCP 生态激活后,这里新增了大量 MCP-native Agent;e2b 本身是安全代码执行沙箱,对需要运行代码的 Agent 是必备基础设施
- 与我的相关性:中——攀岩 App 的 Agent 需要安全执行代码(姿态分析脚本),e2b sandbox 是候选方案
- 上手成本:低(列表)/ 中(e2b 沙箱集成)
- 是否建议我收藏:是
- 是否建议我复现:关注 e2b 的代码执行能力是否适合攀岩 App
- 一句话判断:Agent 研究者必须持续追踪的列表,e2b 沙箱对运行分析代码的 Agent 项目是重要基础设施
四、今日最值得我看的 3 篇 / 3 个链接
第 1 位:OpenCap Monocular arXiv(2603.24733)
攀岩 App 的核心技术路线——单摄像头→3D 骨骼力学——有了最完整的开源学术基础。今天读完 abstract + method,明天开始测试代码。这篇论文可以直接写进项目 roadmap 和 portfolio。
第 2 位:TechCrunch「Sora 真正为什么失败」
20 分钟读完,直接转化成「AI 产品商业化判断」的面试素材。比背诵任何 benchmark 数字都更能展示 product sense。攀岩 App 的商业路径设计需要避开 Sora 的同类陷阱。
第 3 位:Google Veo 3.1 Lite 官方博客
攀岩 App 的「标准动作示范视频」功能现在有了成本可控的 API 支撑。10 分钟了解 Veo 3.1 Lite 的定价结构和 API 接口,评估是否今天就注册 Gemini API 开始测试。
五、今日行动清单
1. 今天值得收藏但不必立刻看的
- ClimbingCap 论文(arXiv 2503.21268) —— 多模态攀岩动捕,短期 LiDAR 用不到,但了解学术最优方案
- Luma Unified Intelligence 创意 Agent —— 3D 生成能力成熟后再看
- awesome-ai-agents-2026 —— 每月刷一次即可
- Vellum:Agentic Workflows in 2026 完整指南 —— 做 Agent 架构设计时精读
2. 今天值得精读的
- OpenCap Monocular arXiv —— method 部分,评估复现可行性
- TechCrunch Sora 失败深度报道 —— 20 分钟,面试素材
- Addy Osmani LLM 编程工作流 2026 —— 系统化的工程经验,值得细读
3. 今天值得复现/试用的
- steipete/claude-code-mcp:10 分钟安装,立刻试用 Agent-in-Agent 架构
- Gemini API Veo 3.1 Lite:注册,生成一个攀岩示范视频测试质量和成本
- EfficientVideoAgent (EVA):clone repo,用一段攀岩视频测试自动选帧效果
4. 今天值得记到项目 roadmap 的
- 姿态估计层:将 OpenCap Monocular 纳入技术选型,替代 MediaPipe 作为更精确的骨骼估计方案
- 视频生成:Veo 3.1 Lite API 集成到「标准动作对比」功能模块
- Agent 架构:用 MCP 接口封装视频分析功能,兼容未来 Agent 生态扩展
- 长视频处理:引入 EVA 的选帧策略,解决长时间攀岩训练视频的高效处理问题
- 商业模式参考:以 Sora 失败为反例,把攀岩 App 定位为「分析工具」而非「创作工具」
5. 今天面试里可以拿来讲的 1~2 个点
① AI 产品商业化判断:"Sora 证明了'内容消费型视频生成'很难盈利——用户峰值 100 万后迅速流失,日烧 $1M,最终关停。我在设计攀岩 App 时刻意把核心功能定位为'分析工具'而非'创作工具',分析类产品的付费意愿和留存率显著高于娱乐类,这是我从 Sora 失败中得到的产品判断。"
② 单摄像头 3D 运动分析:"我正在研究 OpenCap Monocular(斯坦福,2026 年 3 月),它只用一个手机摄像头就能估计 3D 骨骼运动学和关节扭矩,在攀岩场景中意味着用户不需要任何额外硬件就能得到专业级动作数据。这是我的攀岩分析 App 从'视频描述'升级到'生物力学分析'的核心技术依赖。"
🤖 AI 日报由 Claude 自动生成 | 数据截至 2026-04-01 | 如有遗漏或错误欢迎反馈