📰AI 日报 | 2026-04-25
type
Post
status
Published
date
Apr 25, 2026
slug
summary
今日重点:Claude Sonnet 4.6 拿下 GDPval-AA Elo 第一并放出 1M context beta;Cognition (Devin) 估值冲到 $25B;ETH Zurich 研究质疑 AGENTS.md 实际收益;Meta SAM 3.1 Object Multiplex 让多目标视频追踪更快;HappyHorse-1.0 视频+音频联合生成。攀岩 app 重点关注 SportSkills 数据集 + 4DHumans 单目 3D 追踪。
tags
新闻
开发
思考
category
技术分享
icon
password
Comment
Hide
今日基调:模型层 Claude / Anthropic 节奏明显加快Agent 工程开始反思 "AGENTS.md" 这种 context 文件的真实收益视频/分割侧 SAM 3.1 + SportSkills 是动作分析方向必看商业层 Cognition 估值 $25B、DeepSeek 谈融资是行业拐点信号

一、今日最重要的 5 条

1. Claude Sonnet 4.6 登顶 GDPval-AA Elo,1M token context 进入 beta(不加价)
  • 发生了什么:Claude Sonnet 4.6 在 GDPval-AA Elo 上以 1633 分领先,同时 1M token 上下文窗口在 API 进入 beta,价格未变。
  • 为什么重要:这是"前沿能力 + 长上下文 + 不涨价"三件事一起兑现,对 coding agent / RAG / 长文档分析路线影响最大。
  • 对你:你做 agent / coding 工具链时可以直接基于 Sonnet 4.6 构建长上下文 workflow,先不要急着上 Opus。
2. Cognition (Devin 团队) 进入 $25B 估值轮谈判
  • 发生了什么:Bloomberg 报道 Cognition 正在谈判一轮新融资,估值翻倍至 $25B(来源:Bloomberg, 2026-04-23)。
  • 为什么重要:coding agent 赛道仍在加速,资本仍在押注"AI 写代码"作为最快变现的 agent 应用。
  • 对你:求职/项目方向上,coding agent + 工具链 + eval 这条线含金量持续上升,很值得做 portfolio。
3. Anthropic 公开宣布 4 月 20 号修复 Claude Code/Agent SDK 的质量回退问题(v2.1.116)
  • 发生了什么:Anthropic 承认近期 Sonnet/Opus 质量被报告回退,并已修复,同时 prompt cache 优化让 SDK query() 输入 token 成本最多降 12x。
  • 为什么重要:这是"模型上线后悄悄退化"问题第一次被官方明确承认+给出修复版本号,对所有依赖 Claude 做 agent 的人都重要。
  • 对你:你做 coding agent 的 eval / regression 一定要纳入"模型悄悄变差"这一类失败模式。
4. ETH Zurich 论文:AGENTS.md / repo-level context 文件平均反而让任务成功率下降 ~3%,成本上升 20%+
  • 发生了什么:论文 "Evaluating AGENTS.md" 在 138 个真实 Python repo 上测了 Claude 3.5 Sonnet / Codex GPT-5.2 / GPT-5.1 mini / Qwen Code,发现 LLM 自动生成的 AGENTS.md 通常是负收益。
  • 为什么重要:直接挑战"加 context 文件 = 更好 agent"的工程默认假设,是 2026 上半年最有反共识价值的 agent 工程论文之一。
  • 对你:在做 coding agent / dev tool 时,不要无脑塞 AGENTS.md,要么不写,要么只写"模型推不出来的东西"(构建命令、特殊 tooling 等)。
5. Meta SAM 3.1 Object Multiplex:视频中多目标分割/追踪更快、更适合实时
  • 发生了什么:在 ICLR 2026 公布的 SAM 3 基础上,3 月 27 号 Meta 放出 SAM 3.1,引入 shared-memory 多目标联合追踪,速度大幅提升、精度不降。
  • 为什么重要:这是当前 "text/exemplar prompt → 视频分割+追踪" 的事实标准,对所有视频理解项目都是 baseline。
  • 对你(攀岩 app):可以用"climber"、"hand on hold"、"foot on hold" 这类 noun-phrase prompt 直接做攀岩者+岩点的视频追踪,大幅省掉自己训分割模型。

二、按目标分类

A. 前沿模型 / 一手发布

A1. Claude Sonnet 4.6 + 1M context beta
  • 事件:Sonnet 4.6 GDPval-AA Elo 领先;1M token context 进入 beta;价格未变。
  • 核心内容:长上下文能力首次以"不加价"方式开放给 Sonnet 级模型。
  • 为什么重要:长上下文 + 强 coding 能力 + 价格不变 = agent 可用门槛大幅下降。
  • 我需不需要点开:需要,特别是关注 pricing & rate limit 细节。
A2. OpenAI GPT-5.4 / GPT-5.5
  • 事件:GPT-5.4(3 月 5 号发布)刷新 computer-use benchmark 与 GDPval(83%);GPT-5.5 已在 API 提供。
  • 核心内容:computer-use 与生产力评测继续被 OpenAI 拉高。
  • 为什么重要:computer-use 是 OpenAI 这一轮主战场,对 agent 形态影响很大。
  • 我需不需要点开:需要,重点看 GDPval 和 computer-use 的具体子项。
A3. Google Gemma 4 开源(Apache 2.0,多模态,26B–31B)
  • 事件:Gemma 4 全家放出,含 "any-to-any" E-series 实验型号;多模态输入;强调 coding + agent + reasoning。
  • 核心内容:Google 把开源权重水准拉到 30B 级别 + 真正多模态。
  • 为什么重要:是当前"可商用、可本地、能做多模态"最现实的开源选项。
  • 我需不需要点开:需要(多模态线必看)。
A4. Meta SAM 3.1 Object Multiplex
  • 事件:concept-prompt 视频分割+追踪,shared-memory 多目标。
  • 核心内容:text / exemplar 提示词驱动的视频分割,实时性显著提升。
  • 为什么重要:视频理解链路里,分割+追踪问题基本被这个统一模型吃掉了。
  • 我需不需要点开:需要,这是攀岩 app 的核心组件备选。
A5. Alibaba HappyHorse-1.0:单步同时生成视频 + 音频
  • 事件:4 月 10 号官方发布,号称单 forward pass 同时合成对白、环境声、Foley。
  • 核心内容:跳过"先视频再配音"的两段式 pipeline。
  • 为什么重要:是"audio-visual joint generation"这个方向第一个有官方背书的工程化产品。
  • 我需不需要点开:中等,作为商业化方向跟踪即可,与你主线关系不大。

B. AI 工程 / Agent / Coding workflow

B1. "Evaluating AGENTS.md" (ETH Zurich, arXiv 2602.11988)
  • 内容:138 真实 Python repo + 4 个 agent,发现 LLM 自动生成的 AGENTS.md 平均让成功率 -3%、成本 +20%。
  • 可落地价值:直接修正"塞 context 就好"的工程偏见。
  • 对我当前开发/学习的意义:你做 dev tool / coding agent 时,eval 设计要包含 "加 context 是不是反而变差" 这一对照;面试可以拿来讲"反共识但有数据支撑"的 agent 工程观点。
B2. Anthropic 修复 Claude Code/Agent SDK 退化 + prompt cache 12x 降本
  • 内容:v2.1.116 修复一系列质量与 SDK bug;prompt cache 优化大幅降低 SDK query() 输入 token 成本。
  • 可落地价值:你做 agent 的成本结构里,prompt cache 是主要变量,12x 是工程级别的胜利。
  • 对我当前开发/学习的意义:项目里直接打开 prompt cache,并把"模型 silent 退化"加进 monitoring。
B3. "Memory for Autonomous LLM Agents" 综述(arXiv 2603.07670)
  • 内容:把 agent memory 形式化为 write–manage–read 循环,三维分类法(temporal / representational / control policy),覆盖 5 大机制族。
  • 可落地价值:是当前最系统的 agent memory 综述,做 agent 的同学绕不开。
  • 对我当前开发/学习的意义:可以作为你设计自己 agent memory 模块的参考骨架;面试中讨论 agent 长期记忆时有抓手。
B4. "AI-Generated Code Is Not Reproducible (Yet)"(arXiv 2512.22387)
  • 内容:测了 3 个 SOTA coding agent × 300 个项目,只有 68.3% 能开箱跑起来;声明依赖到实际依赖平均膨胀 13.5×。
  • 可落地价值:给"AI 写完就能跑"这种 narrative 一个数据点。
  • 对我当前开发/学习的意义:在你的 coding agent 项目里,复现性 / 依赖闭包应当是一项专门的 eval 维度。

C. 视觉 / 视频 / 运动人体分析(攀岩动作分析重点)

C1. SAM 3 / SAM 3.1(Meta)
  • 内容:concept prompt(短名词短语 / 框 / 点)驱动的图像与视频分割与跨帧追踪;3.1 引入 shared-memory 多目标。
  • 与攀岩 app 相关性:极高,可以直接当 "climber / hand / foot / hold" 的检测分割追踪 baseline。
  • 可迁移到项目的点:用 SAM 3 做"攀爬者+使用中的岩点"片段化分析;把分割 mask 输入到下游姿态/动作模型。
  • 优先级:
C2. SportSkills(arXiv 2603.25163)
  • 内容:从体育教学视频中学习"可被模仿的物理技能"表征;强调 fine-grained motion → measurable improvement 的关系。
  • 与攀岩 app 相关性:,攀岩本质上就是一个"动作 → 完成度 / 失败模式"的体育技能学习问题。
  • 可迁移到项目的点:把"识别动作"升级到"识别动作 + 给出基于参考动作的差异反馈"的 pretraining 思路。
  • 优先级:
C3. The Way Up: Hold Usage Detection in Sport Climbing (arXiv 2505.12854)
  • 内容:22 段标注攀岩视频,含 hold 位置、使用顺序、使用时间;用 2D pose keypoint 与 hold 重叠判断使用。
  • 与攀岩 app 相关性:极高,几乎就是你 app 的最小化 academic 版本。
  • 可迁移到项目的点:直接把它的标注规范、评测协议拿来用;把它的 baseline 当对比对象。
  • 优先级:
C4. 4DHumans(单目视频鲁棒 3D 姿态 + 跨帧追踪)
  • 内容:HMR 2.0 + 跨帧 tracker,能在遮挡、人际交互下追踪。
  • 与攀岩 app 相关性:,攀岩有大量自遮挡(手脚靠墙、躯干扭曲)。
  • 可迁移到项目的点:拿来做"单手机视频 → 3D 姿态序列"的 baseline,比 MediaPipe 更适合复杂姿态。
  • 优先级:
C5. MoveNet Lightning / MediaPipe BlazePose / MobilePoser(端侧实时姿态)
  • 内容:MoveNet Lightning 7ms/帧;BlazePose 33 keypoints @30+ FPS;MobilePoser 用手机/手表 IMU 做全身姿态。
  • 与攀岩 app 相关性:,是"上传视频→端侧反馈"的工程兜底方案。
  • 可迁移到项目的点:MVP 阶段先用 MoveNet/BlazePose,等核心动作识别 work 后再上 4DHumans。
  • 优先级:

D. 产品化 / 商业化 / 行业动态

D1. Cognition / Devin → $25B 估值谈判
  • 动态:Bloomberg 报道,coding agent 头部公司估值翻倍。
  • 背后的趋势判断:coding agent 已经从"演示"进入"被买单"阶段,资本对 agent 应用的下注开始集中到"能直接代替工程师工时"的方向。
  • 对 side project / 求职 / 项目方向的启发:做 portfolio 时往"能量化代替人类工时"的 agent 走,比做 chat UI / wrapper 价值高。
D2. Tencent / Alibaba 谈判入股 DeepSeek
  • 动态:4 月 24 号消息,Tencent 提议至高 20% 股权,DeepSeek 不愿让出过多控制;以 MiniMax (~$40B) 为锚。
  • 背后的趋势判断:中国大厂从"自己造大模型"转向"投资头部独立大模型"的资本结构正在形成。
  • 对 side project / 求职 / 项目方向的启发:中国侧多模态 / 视频生成 / coding 模型供应仍在加深,做产品时可以考虑双模型路线(Claude/GPT + DeepSeek/Qwen)。
D3. Google Cloud Next 2026:A2A 协议、Workspace Studio
  • 动态:Google 押 agent 互通协议(A2A)+ 全栈 agent,对抗 OpenAI / Anthropic。
  • 背后的趋势判断:agent 生态的标准战开打:MCP(工具侧) + A2A(agent 之间) 可能成为事实标准对子。
  • 对 side project / 求职 / 项目方向的启发:你做 agent 系统时,至少把 MCP 跑通,能简单理解 A2A,对面试有明显帮助。
D4. "Skills 生态" 在 GitHub 集体爆发 + Karpathy CLAUDE.md 走红
  • 动态:本周 GitHub trending 上 "skills" 类 repo 集中爆发;Forrest Chang 把 Karpathy 关于 LLM coding 陷阱的观察整理成单个 CLAUDE.md,登上单日 #2 new stars。
  • 背后的趋势判断:"用 markdown / skill / context file 扩展 coding agent 能力" 成为开发社区主线动作;与 B1 论文形成有趣张力——社区在拼命塞 context,学术在告诉你别塞
  • 对 side project / 求职 / 项目方向的启发:做 dev tool 类项目,理解 "skills" 这个抽象(包括 Anthropic 的 skill 概念)现在比一年前更有溢价。

E. 学习价值 / 求职价值

E1. "Evaluating AGENTS.md"(arXiv 2602.11988)
  • 适合我怎么用:精读 + 面试表达
  • 推荐动作:精读 1 小时;总结成 1 页 Notion;准备一段 90 秒口述"反共识 finding + 工程含义"。
E2. "Memory for Autonomous LLM Agents" 综述(arXiv 2603.07670)
  • 适合我怎么用:收藏 + 精读结构
  • 推荐动作:先只读它的分类法图 + 5 个机制族总结,足以建立 mental model;后续做 agent memory 模块时回头查。
E3. SportSkills + The Way Up + 4DHumans 三件套
  • 适合我怎么用:复现 + 写进项目 roadmap
  • 推荐动作:
      1. 用 The Way Up 数据集跑一遍 "hold usage detection" baseline;
      1. 用 4DHumans 处理你自己拍的攀岩视频,看 3D 姿态稳定性;
      1. 把 SportSkills 的"动作 → 表现差异"思路写进 app 的反馈生成模块设计。

三、今日高分 GitHub Repo(5–10 个)

Repo 1:facebookresearch/sam3
  • 方向标签:video / multimodal / segmentation
  • 这项目是干什么的:Meta SAM 3 / SAM 3.1 官方推理与 finetune 代码,含 checkpoint 与示例 notebook。
  • 为什么今天值得关注:是当前 "text-prompt 视频分割与追踪" 的事实标准,刚发布 3.1 多目标版本。
  • 与我的相关性:直接相关,攀岩动作分析的视频分割/追踪 baseline。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:(先跑示例 notebook 再换自己的攀岩视频)
  • 一句话判断:你 app 的视频前处理几乎可以从这里抄一半。
Repo 2:anthropics/claude-code(含 @anthropic-ai/claude-agent-sdk)
  • 方向标签:agent / dev tools
  • 这项目是干什么的:Claude Code 与 Claude Agent SDK 的官方 release 仓库。
  • 为什么今天值得关注:v2.1.116 修复了近期质量退化与多个 SDK bug,prompt cache 12x 降本;改名后这是 agent 工程的事实参考实现之一。
  • 与我的相关性:,做 coding agent / dev tool 必须看。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:,至少基于 SDK 写一个最小自定义 agent。
  • 一句话判断:当前最完整的"商用级 coding agent 参考实现"。
Repo 3:lsdefine/GenericAgent (Evolver / GEP)
  • 方向标签:agent / self-evolving
  • 这项目是干什么的:从 3.3K 行 seed 出发自演化 skill tree,号称 token 消耗减少 6×。
  • 为什么今天值得关注:本周日新增 1131 stars,是 "self-evolving agent" 这个新方向最热门的开源实现。
  • 与我的相关性:,方向新颖,但要小心"看起来很酷但难落地"。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:(先观察一周再说,避免被 hype 拉走时间)
  • 一句话判断:方向有趣,但等社区出第三方复现报告再投入
Repo 4:n8n-io/n8n
  • 方向标签:agent / workflow / dev tools
  • 这项目是干什么的:fair-code 工作流自动化,原生 AI 节点 + 400+ 集成。
  • 为什么今天值得关注:是"AI agent 落到企业流程"这条路最成熟的开源选项之一,trending 长期在线。
  • 与我的相关性:,可以学它怎么把 LLM 节点和外部系统粘起来。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:可以本地起一个,做一个"GitHub PR → Claude review → Slack 通知"小流程练手。
  • 一句话判断:理解"AI 工作流"长什么样的最便宜方式。
Repo 5:langflow-ai/langflow
  • 方向标签:agent / visual builder
  • 这项目是干什么的:可视化 LLM/agent 流程构建器,~146k stars。
  • 为什么今天值得关注:visual builder 占据 trending 前 5 中的 3 席,是当前"低门槛 agent"主战场。
  • 与我的相关性:,做 demo / 给非工程师演示时很有用。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:可选;至少跑一遍它的 "agent + tool" 示例。
  • 一句话判断:自己实现前先看它怎么把 agent 抽象成节点。
Repo 6:karpathy / Forrest Chang 的 "andrej-karpathy-skills" CLAUDE.md
  • 方向标签:skills / dev tools / prompt engineering
  • 这项目是干什么的:把 Karpathy 关于 LLM coding 陷阱的公开观察压缩成一个 CLAUDE.md
  • 为什么今天值得关注:登上单日 new stars #2,社区共识级 prompt 资产。
  • 与我的相关性:,看一遍能立刻提升你日常用 Claude Code 的姿势。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:把它精简到适合你自己项目的版本(注意 B1 论文的警告:不要无脑塞)。
  • 一句话判断:读一遍,挑 3 条放进自己的 workflow,不要全盘照抄
Repo 7:VoltAgent/awesome-ai-agent-papers
  • 方向标签:agent / research / curation
  • 这项目是干什么的:2026 年 agent 方向论文精选清单,按 agent engineering / memory / eval / workflow / autonomy 分类。
  • 为什么今天值得关注:是当前最活跃维护的 agent 研究索引之一。
  • 与我的相关性:,给你节省每周自己翻 arXiv 的时间。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A,订阅 / 加 watch 即可。
  • 一句话判断:当作你 agent 方向的 "RSS"。
Repo 8:shubhamai/awesome-cv-papers 类的视频/动作合集(建议手动确认)
  • 方向标签:research / curation
  • 这项目是干什么的:与 LLM agent 综述配套的论文清单。
  • 为什么今天值得关注:和 VoltAgent 那份互为补充,两份一起 watch,覆盖度足够。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A
  • 一句话判断:与 Repo 7 二选一即可,避免重复信息。
Repo 9:caramaschiHG/awesome-ai-agents-2026
  • 方向标签:agent / curation / product
  • 这项目是干什么的:2026 年 agent 框架/工具/产品分类汇总,300+ 资源、20+ 类别,月更。
  • 为什么今天值得关注:选型时可以快速横向对比,不用一家家点开。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A
  • 一句话判断:做技术选型先翻一遍它
警告 ⚠️:OpenClaw 这种瞬间冲到 200k+ star 的明星项目——文档与生态尚未成熟,不要盲目当成可复现 baseline,可观察但不要立刻 all-in。

四、今日最值得我看的 3 篇 / 3 个链接

1. "Evaluating AGENTS.md"(ETH Zurich, arXiv 2602.11988)
  • 为什么是今天最值得点开:它给"AI 工程默认做法"提供了一个反共识的实验数据,90% 在做 coding agent 的人都搞错了方向
2. Meta SAM 3.1 官方博客 + sam3 仓库
  • 为什么是今天最值得点开:是攀岩 app 视频前处理唯一一定要做的功课,看完即可决定要不要把它做 baseline。
3. The Way Up(攀岩数据集论文)+ 4DHumans 综述
  • 为什么是今天最值得点开:"攀岩动作分析"这个垂类的现成数据集 + 现成 3D 姿态方案,直接决定你 app 第一版能多便宜地跑起来。

五、今日行动清单(最重要)

1. 今天值得收藏但不必立刻看:
  • HappyHorse-1.0 评测(视频+音频联合生成)
  • Cognition $25B 估值新闻
  • DeepSeek 融资新闻
  • Google A2A 协议(关注,但等更多文档)
2. 今天值得精读:
  • arXiv 2602.11988 "Evaluating AGENTS.md"(约 1 小时)
  • Meta SAM 3.1 官方博客 + SAM 3 论文 abstract(约 30 分钟)
3. 今天值得复现 / 试用:
  • facebookresearch/sam3:用一段你自己拍的攀岩视频跑一遍 text-prompt 分割追踪。
  • @anthropic-ai/claude-agent-sdk:基于 v2.1.116 写一个最小 agent,验证 prompt cache 是否真的让你 token 成本下降。
4. 今天值得记到项目 roadmap(攀岩 app):
  • 视频前处理:SAM 3.1 做 climber + hand/foot + hold 的分割追踪。
  • 3D 姿态:用 4DHumans 替换/补强 MediaPipe,应对自遮挡。
  • 数据:把 The Way Up 数据集纳入评测协议。
  • 反馈生成:参考 SportSkills 的 "动作差异 → 可执行改进建议" 思路。
  • Eval:复现性、context file 是否带来净收益(参考 AGENTS.md 论文方法论)。
5. 今天面试可以拿来讲的 1–2 个点:
  • (高优先) "AGENTS.md 平均反而让 agent 变差"——能体现你看一手论文 + 反共识 + 工程化思考的组合能力。
  • "Claude Sonnet 4.6 在 Elo 上反超且开放 1M context 不加价"——能体现你跟踪模型市场结构的能力。

六、信息密度 / 信噪比说明

  • 今天"模型层 + agent 工程层"信号都比较强,不存在硬凑
  • HappyHorse-1.0、OpenClaw 这类有明显 "热度高 / 价值待验证" 的项目我已标注,热度 ≠ 复现价值
  • 攀岩 app 方向今天没有当日新发布,但有非常重要的已存在但今天值得回头看的资产(SAM 3.1 / The Way Up / SportSkills / 4DHumans),符合"宁缺毋滥 + 旧内容补课"的策略。
  • 自动生成于 2026-04-25 by AI 日报 scheduled task。
AI 日报 | 2026-04-01成立!
Loading...