📰AI 日报 | 2026-04-26
type
Post
status
Published
date
Apr 26, 2026
slug
summary
今日重点:DeepSeek V4 Pro/Flash 开源(1.6T MoE + 1M context + Hybrid Attention,SWE-bench 80.6% 几乎追平 Opus 4.6);OpenAI GPT-5.5 全量上线;Hugging Face ml-intern 开源 ML engineer agent,在 GPQA 上压过 Claude Code;Anthropic Claude Code 最新版修复质量回退 + 引入 Visual Vim;Martin Fowler 提出 Harness Engineering 概念。攀岩 app 重点:ClimbingCap (RGB+LiDAR 3D 攀岩动作数据集) + AthletePose3D + 复用 SAM 3.1 / 4DHumans 路线。
tags
新闻
开发
思考
category
技术分享
icon
password
Comment
Hide
今日基调:开源模型层节奏猛——DeepSeek V4 (1.6T, 1M context, MIT) 直接把开源 SOTA 推到 Opus 4.6 同档;OpenAI 端 GPT-5.5 全量上线Agent 工程层出现两个值得收的概念:HF ml-intern(end-to-end ML engineer)和 Martin Fowler 的 harness engineering视频/动作分析侧 ClimbingCap (RGB+LiDAR 3D 攀岩数据集) 是攀岩 app 的关键素材,配合昨天已经覆盖的 SAM 3.1 / The Way Up / 4DHumans 形成完整 baseline。

一、今日最重要的 5 条

1. DeepSeek V4-Pro / V4-Flash 开源(1.6T MoE + 1M context + Hybrid Attention,MIT)
  • 发生了什么:4 月 24 号 DeepSeek 公布 V4 系列,Pro 1.6T (49B activated)、Flash 284B (13B activated),1M token 上下文,双双 MIT 开源(来源:DeepSeek API Docs / Simon Willison, 2026-04-24)。
  • 为什么重要:在 1M 上下文下,V4-Pro 仅需 V3.2 27% 的单 token FLOPs 和 10% 的 KV cache;SWE-bench Verified 80.6%,距离 Claude Opus 4.6 仅 0.2 分,是历史上最强的开源 coding 模型。
  • 对你:你的 coding agent / RAG 项目有了一个真正可商用的开源 backbone;做 portfolio 时"用 DeepSeek V4 自托管 coding agent"是有故事的方向。
2. OpenAI GPT-5.5 全量上线 ChatGPT + Codex
  • 发生了什么:4 月 23 号 OpenAI 发布 GPT-5.5,主打 "do more with less guidance"——在数据分析、coding/debug、computer use、长程研究、文档/表格生成五个维度全面提升,距离 GPT-5.4 不到 2 个月(来源:CNBC, 2026-04-23)。
  • 为什么重要:computer-use 与 agentic 工作流是 OpenAI 这一轮主战场,GPT-5.5 同步上 Codex 意味着 OpenAI 把 "agent 形态" 当作交付重心。
  • 对你:做 coding agent 的 eval 套件需要把 GPT-5.5 加进 baseline;如果你只比较 Sonnet 4.6,会被认为 benchmark 脆弱。
3. Hugging Face 开源 ml-intern:会读论文、会跑训练、会出报告的 ML engineer agent
  • 发生了什么:4 月 21 号 HF 开源 ml-intern,基于 smolagents,能从 arXiv → HF Hub 数据集 → 训练脚本 → eval 全流程跑通,Demo 中把 Qwen3-1.7B 在 GPQA 从 10% → 32% (10 小时内),超过 Claude Code 的 22.99%(来源:HF / MarkTechPost, 2026-04-21)。
  • 为什么重要:这是第一次有 ML 团队认真把 "post-training as agent loop" 工程化;它的 moat 不是模型,而是 HF 生态访问能力——一个值得反复琢磨的产品方向。
  • 对你:做 agent 项目时,可以借鉴它的 "研究 → 数据 → 训练 → eval" 循环结构;面试时是"专注垂直 agent 不是壳"的好案例。
4. Martin Fowler 系统化 "Harness Engineering":Agent = Model + Harness
  • 发生了什么:4 月 Fowler 在自己博客发表 Harness engineering for coding agent users,把 agent 中除模型以外的一切(loop、tools、context 注入、permissions、错误恢复、评估)总结为 "harness",并指出 harness 才是当下产品差异点。
  • 为什么重要:这是与昨日 ETH "AGENTS.md 反而变差" 论文呼应的工程层范式定义——调模型 vs 调 harness 之争开始有清晰命名。
  • 对你:求职 / 项目讨论里,能用 "我做的不是 prompt engineering 而是 harness engineering" 这种术语,会显著提升你的 agent 工程站位。
5. ClimbingCap:RGB + LiDAR 的攀岩 3D 动作恢复方法 + AscendMotion 数据集(412k frames)
  • 发生了什么:arXiv 2503.21268,专门面向攀岩任务,使用 RGB + LiDAR 双模态在 世界坐标系 下重建连续 3D 攀岩动作;附带 AscendMotion 数据集(344 分钟标注 + 441 分钟未标注,412k 帧,比 SPEED21 / CIMI4D 大一个量级)。
  • 为什么重要:攀岩里强烈的自遮挡、贴墙、躯干扭曲是通用 3D pose 模型最难处理的场景,专用数据集 + 专用方法直接覆盖你 app 的核心用例。
  • 对你(攀岩 app):这是你 app 最直接相关的学术资产之一;即使你不做 LiDAR,也可以用 AscendMotion 做评测、用方法部分对比纯 RGB pipeline。

二、按目标分类

A. 前沿模型 / 一手发布

A1. DeepSeek V4-Pro / V4-Flash
  • 事件:1.6T MoE / 284B MoE,1M token context,MIT 开源;Hybrid Attention (CSA + HCA)。
  • 核心内容:长上下文成本骤降 + 开源;coding 能力追平闭源前沿。
  • 为什么重要:第一个真正同时具备"前沿能力 + 开源 + 长上下文 + 商用许可"的模型。
  • 我需不需要点开:需要,至少看 SGLang 的 day-0 部署博客判断本地部署可行性。
A2. OpenAI GPT-5.5
  • 事件:4 月 23 号上线 ChatGPT/Codex 付费层,主打 "less guidance, more done"。
  • 核心内容:computer-use、coding、长程研究全面提升。
  • 为什么重要:OpenAI 把节奏压到 < 2 个月一次大更新。
  • 我需不需要点开:需要,重点看它在 computer-use 子项的细节披露。
A3. Anthropic Claude Code 新版(Visual Vim + MCP OAuth + 修复质量回退)
  • 事件:本周 Claude Code 加入 Visual Vim、/tui 全屏模式、MCP server OAuth 重连修复,并修复了三处近期被反馈"变差"的原因(默认 reasoning effort 被压低、prompt cache 丢思考历史、verbosity prompt 影响 coding)。
  • 核心内容:把质量退化机制公开、可追责。
  • 为什么重要:业内第一次把"silent regression"当一等公民处理。
  • 我需不需要点开:需要,特别是若你在自己工作流里用 Claude Code。
A4. Anthropic Operon(生物研究专用 agent,含实验室软件集成)
  • 事件:本月公布的 Anthropic Labs 项目,把 Claude 接入实验室自动化工具链。
  • 核心内容:典型的"垂直 agent + 真实 lab 工具"。
  • 为什么重要:与 Cognition (coding) 一起,预示 Anthropic 这一轮押注"专用 agent + harness"路线,而不是只卖通用模型。
  • 我需不需要点开:中等,关注其 harness 设计哲学,不必跟做。
A5. Molmo 2 / Vidi 2.5(开源视频理解)
  • 事件:Ai2 Molmo 2(视频 grounding / 跟踪)+ ByteDance Vidi 2.5(hour-level 视频时空 grounding + Video QA)。
  • 核心内容:开源端"长视频理解 + 物体级时空定位"路线已经成型。
  • 为什么重要:你做攀岩动作分析时,需要从"原始视频 → 关键时段 + 关键人/物",这两条路线分别对应不同 trade-off。
  • 我需不需要点开:需要(视频线必看)。

B. AI 工程 / Agent / Coding workflow

B1. Martin Fowler — *Harness Engineering for Coding Agent Users*
  • 内容:明确把 agent 拆成 "Model + Harness",把工具链、循环、context 注入、错误恢复、eval 全部归到 harness 工程。
  • 可落地价值:给"prompt engineering 到底属于哪一层"这种长期模糊问题画了线。
  • 对我当前开发/学习的意义:写简历、写项目 README 时用 "harness engineering" 这一词比 "prompt engineering" 更专业、更具体。
B2. Hugging Face ml-intern(end-to-end ML engineer agent)
  • 内容:基于 smolagents,自动跑 "读 paper → 找数据 → 训练 → 评估 → 报告";HF 还赠 $1000 GPU + Anthropic credits 给早期用户。
  • 可落地价值:是"垂直 agent"目前最干净的开源参考实现之一。
  • 对我当前开发/学习的意义:做 portfolio 时,借鉴它的"研究 loop"结构,可以把你的攀岩 app 拆成 "输入视频 → 解析动作 → 检索参考 → 给反馈" 的同构 loop。
B3. ICLR 2026 TurboQuant:3-bit KV cache 量化,零精度损失,6× 显存 + 8× attention 加速
  • 内容:把 KV cache 压到 3 bit,attention 计算最高 8× 加速,对长上下文模型推理价格冲击非常大。
  • 可落地价值:自己跑大模型(含 DeepSeek V4)时可以观望 SGLang/vLLM 何时集成,等到了就直接"白嫖"。
  • 对我当前开发/学习的意义:理解"为什么 1M 上下文今年开始大量 affordable"的技术原因,面试 infra/inference 题非常加分。
B4. SoK: Agentic RAG (arXiv 2603.07379)
  • 内容:把 agentic RAG 形式化为有限 horizon POMDP,列出 hallucination propagation / memory poisoning / cascading tool failure 等系统性风险。
  • 可落地价值:当下做 agentic RAG eval 时的"风险目录",避免你 eval 只测 success 不测 failure mode。
  • 对我当前开发/学习的意义:你写 RAG/agent 项目时,从这里挑 3 个 failure mode 写进 eval,立刻显得专业。

C. 视觉 / 视频 / 运动人体分析(攀岩动作分析重点)

C1. ClimbingCap + AscendMotion 数据集(arXiv 2503.21268)
  • 内容:RGB + LiDAR 双模态、世界坐标系下连续 3D 攀岩动作恢复;AscendMotion 412k frames。
  • 与攀岩 app 相关性:极高
  • 可迁移到项目的点:(1) 用 AscendMotion 做 baseline 评测;(2) 即使只用 RGB,也可以借鉴它的 "camera-coord 重建 → 全局对齐" 两段式思路;(3) 研究他们怎么处理贴墙自遮挡。
  • 优先级:
C2. AthletePose3D(arXiv 2503.07499)
  • 内容:12 类运动 / 1.3M frames / 165k 单帧 3D 姿态,专门覆盖高速度高加速度运动。
  • 与攀岩 app 相关性:中-高,攀岩并非高速运动,但"瞬间发力 / 动态 dyno"段需要这种高频数据辅助。
  • 可迁移到项目的点:可作为补充 pretrain 数据集;用作单目 3D pose 的 hard case eval。
  • 优先级:
C3. Molmo 2 (Ai2):视频物体追踪 / 指点 / 多帧推理
  • 内容:8B / 4B 两档;在视频 tracking 上压过 Gemini 3 Pro 与多个开源同类;附带 100k+ 视频 caption + 431k clip captions 开源。
  • 与攀岩 app 相关性:。它在 "video pointing" 上的能力,恰好能用来"在视频里指出某只手抓的是哪个 hold"。
  • 可迁移到项目的点:可以替代/补充 SAM 3.1,作为 "video QA + pointing" 的工具层。
  • 优先级:中-高
C4. Vidi 2.5(ByteDance):hour-level 视频时空 grounding + Video QA
  • 内容:从 Vidi 1.0 (temporal retrieval) → 2.0 (spatio-temporal grounding) → 2.5 的迭代;hour-long video 是默认输入假设。
  • 与攀岩 app 相关性:,攀岩 app 单条视频通常只有几分钟,但训练馆全场录像时长视频能力是 nice-to-have。
  • 可迁移到项目的点:长视频里 "找某条线、某段动作" 的 query 能力。
  • 优先级:
C5. Multi-person Physics-based Pose Estimation for Combat Sports(arXiv 2504.08175)
  • 内容:稀疏多机位下的 3D 多人姿态估计 + 物理约束。
  • 与攀岩 app 相关性:低-中,攀岩通常单人、单机位,但物理约束的思路(关节限制、地面 / 墙面接触)值得借鉴。
  • 可迁移到项目的点:把 "墙面 + 抓握点接触" 当作物理约束,可以显著修正纯数据驱动姿态预测的飘移。
  • 优先级:

D. 产品化 / 商业化 / 行业动态

D1. DeepSeek V4 上线 → 中国侧推理价格继续下探
  • 动态:V4-Pro/Flash 全部 MIT 开源,在 1M context 下推理 FLOPs 仅 V3.2 的 27%。
  • 背后的趋势判断:开源端首次具备"对 OpenAI/Anthropic 价格的实质压力"——闭源厂商只能继续往"agent 产品 + 工具链 + 企业 SaaS"上撤。
  • 对 side project / 求职 / 项目方向的启发:你的 indie 项目可以先用 Claude/GPT 做原型、生产环境用 DeepSeek 自托管,这是 2026 年最现实的成本结构。
D2. OpenAI GPT-5.5 + Codex Plan Mode 强化
  • 动态:GPT-5.5 打 "super-app",Codex 同步加强 sandboxing / Plan Mode / TUI 协作。
  • 背后的趋势判断:OpenAI 把 "产品级 agent surface" 押到 ChatGPT 主端 + Codex 两个入口,少做 API;策略与 Anthropic 押 SDK + Claude Code 形成对照。
  • 对 side project / 求职 / 项目方向的启发:如果你的项目想接 OpenAI agent 生态,重点看 ChatGPT 的 actions / app surface,而不是单 API。
D3. Hugging Face 用 ml-intern 切入 "AI 自动跑实验"赛道
  • 动态:HF 不只是模型 hub,开始用 agent 把整个 post-training pipeline 自动化,并赠 GPU + credits 拉早期用户。
  • 背后的趋势判断:"ML 自动化 / AutoML for LLM" 这一层 2026 会是新战场,HF 想用生态而非模型质量做护城河。
  • 对 side project / 求职 / 项目方向的启发:在简历/面试里讲 "我做的 X agent 不是单步 RAG,而是闭环 research loop" 是高溢价表达。
D4. Anthropic Operon(生物 agent)+ Claude Design + Managed Agents
  • 动态:Anthropic 的产品矩阵从单一 Claude 模型 → "Claude + 一组场景化 agent + 平台"。
  • 背后的趋势判断:模型能力差异减小,竞争开始转向"垂直 + harness + ops"。
  • 对 side project / 求职 / 项目方向的启发:你做攀岩 app 时也可以照搬这种"模型 + 场景 harness + 数据闭环"的产品框架。

E. 学习价值 / 求职价值

E1. Martin Fowler — *Harness Engineering*
  • 适合我怎么用:精读 + 面试表达
  • 推荐动作:精读 30–45 分钟;总结成 1 张图(Model vs Harness 的边界、harness 的 7 个组件);面试中作为 "我的 agent 项目" 总览页第一句话。
E2. DeepSeek V4 技术报告 + SGLang Day-0 部署博客
  • 适合我怎么用:精读 + 复现
  • 推荐动作:(1) 看 V4 技术 highlights(Hybrid Attention、长上下文经济性);(2) 看 SGLang 怎么 day-0 部署;(3) 在你最熟的 GPU 配置上估一遍可行性,写成 1 页 "deploying V4-Flash for cheap coding agent" Notion。
E3. ClimbingCap 论文 + AscendMotion 数据集
  • 适合我怎么用:精读 + 复现 + 写进项目 roadmap
  • 推荐动作:(1) 精读 method(30 分钟);(2) 把 AscendMotion 加进你的 eval set;(3) 与 The Way Up + 4DHumans 合并出一份"攀岩动作分析数据 + 模型 baseline"清单。

三、今日高分 GitHub Repo

Repo 1:deepseek-ai/DeepSeek-V4-Pro
  • 方向标签:foundation model / open weights / coding
  • 这项目是干什么的:DeepSeek V4-Pro 1.6T MoE 开源权重 + 配套推理脚本。
  • 为什么今天值得关注:MIT 许可 + 1M context + SWE-bench 80.6%——开源端首次真正贴近 Opus 4.6。
  • 与我的相关性:,未来你的 self-hosted agent 几乎一定会用到它的某个变体。
  • 上手成本:(Pro 要 8×H100/H200 级别),Flash 友好得多。
  • 是否建议我收藏:
  • 是否建议我复现:先复现 Flash(284B/13B activated)即可,Pro 等社区量化版。
  • 一句话判断:今年最重要的开源模型,先看 Flash 跑通,再决定要不要上 Pro
Repo 2:huggingface/ml-intern
  • 方向标签:agent / AutoML / dev tools
  • 这项目是干什么的:基于 smolagents 的端到端 ML engineer agent,能读 paper、找数据、训模型、出报告。
  • 为什么今天值得关注:4 月 21 号开源,已经在 GPQA 上把 Claude Code 比下去;HF 配套发 GPU 与 Anthropic credits 拉用户。
  • 与我的相关性:,对你做 "垂直 agent" 项目的架构参考价值很大。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:跑一次它的 demo(Qwen3-1.7B 上 GPQA),看能不能复现 32% 数字。
  • 一句话判断:当前最干净的端到端垂直 agent 开源参考实现
Repo 3:bytedance/vidi
  • 方向标签:video / multimodal / temporal-grounding
  • 这项目是干什么的:Vidi 系列的官方仓库,支持 hour-level 视频的时空 grounding + Video QA。
  • 为什么今天值得关注:长视频里 "用一句话定位时间段 + 物体 bounding box" 是当前最有用的视频理解能力之一。
  • 与我的相关性:中-高,攀岩教练录像、整场比赛回放的 "找到关键 move" 是直接用例。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:跑一次它的 demo,再用一段攀岩视频测它的时空 grounding 行不行。
  • 一句话判断:长视频 "找东西" 的开源最强实现
Repo 4:allenai/molmo (Molmo 2)
  • 方向标签:multimodal / video / pointing / tracking
  • 这项目是干什么的:Ai2 Molmo 2,视频理解 + pointing + tracking 全能开源多模态。
  • 为什么今天值得关注:在 video tracking 上压过 Gemini 3 Pro,是开源端最强 video pointing/tracking 模型。
  • 与我的相关性:,"在攀岩视频里指出当前手 / 脚 / 抓的 hold" 是它的天然用例。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:用 Molmo 2 在你的攀岩样本上做 "指出动作差异" 的小 demo。
  • 一句话判断:SAM 3.1 解决 "框选",Molmo 2 解决 "指点",两者搭配最强
Repo 5:anthropics/claude-code
  • 方向标签:agent / dev tools
  • 这项目是干什么的:Claude Code 与 Claude Agent SDK 的官方 release 仓库。
  • 为什么今天值得关注:本周更新加 Visual Vim、/tui、修复多个 silent regression,OAuth 链路修复。
  • 与我的相关性:,做 coding agent / dev tool 必看。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:基于 SDK 写一个最小自定义 agent,验证最新 prompt cache 与 reasoning effort 默认值。
  • 一句话判断:"agent 工程" 当前最完整的商用参考实现之一
Repo 6:Ayanami0730/arag (A-RAG)
  • 方向标签:RAG / agent / retrieval
  • 这项目是干什么的:A-RAG 框架,把检索拆成 keyword search / semantic search / chunk read 三个 tool,让 agent 自己组合。
  • 为什么今天值得关注:是"分层检索接口"思路里目前最干净的开源实现,对 multi-hop QA 效果好。
  • 与我的相关性:,给你后续 agent + 长文档/知识库做 baseline。
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:跑一次它的多跳 QA demo,对比单 retriever 的差异。
  • 一句话判断:做 agent 时的好 RAG baseline,不要再写自己的简陋检索
Repo 7:facebookresearch/sam3
  • 方向标签:video / segmentation / multimodal
  • 这项目是干什么的:Meta SAM 3 / SAM 3.1 官方代码,concept-prompt 视频分割追踪。
  • 为什么今天值得关注:与 Molmo 2 / Vidi 一起,构成攀岩 app 视频前处理 "分割 + 指点 + 时空 grounding" 三件套。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:仍建议(昨日已强调),优先级高于 Molmo 2/Vidi。
  • 一句话判断:视频前处理的事实标准 baseline
Repo 8:VoltAgent/awesome-ai-agent-papers
  • 方向标签:research / curation / agent
  • 这项目是干什么的:2026 agent 方向论文索引,按工程 / memory / eval / workflow / autonomy 分类。
  • 为什么今天值得关注:本周持续高频更新,是当下最活跃的 agent 论文 RSS 替代。
  • 与我的相关性:
  • 上手成本:
  • 是否建议我收藏:
  • 是否建议我复现:N/A,watch 即可。
  • 一句话判断:用它替你订 arXiv
警告 ⚠️:Agency-Agents、ml-intern 之外的 "自演化 agent" 仍处早期,文档不完整、可复现性差,先观察社区第三方复现,不要 all-in

四、今日最值得我看的 3 篇 / 3 个链接

1. Simon Willison — *DeepSeek V4: almost on the frontier, a fraction of the price*
  • 为什么是今天最值得点开:Simon 的总结密度极高,30 分钟之内读完就能完整 grasp V4 的 "为什么重要 + 部署成本 + 与 Opus 4.6 的对比"——比读 DeepSeek 自己的 docs 还快。
2. Martin Fowler — *Harness Engineering for Coding Agent Users*
  • 为什么是今天最值得点开:给"agent 工程"画了语义边界,是"未来 1 年面试 agent 题的共同语言",越早内化越值。
3. ClimbingCap (arXiv 2503.21268)
  • 为什么是今天最值得点开:你 app 的核心能力(单目视频 → 攀岩 3D 动作 → 改进建议)目前最强的一手学术参考。

五、今日行动清单(最重要)

1. 今天值得收藏但不必立刻看:
  • TurboQuant(KV cache 3-bit)—— 等 SGLang/vLLM 集成再说
  • Anthropic Operon、Claude Design——产品方向跟踪
  • AthletePose3D、Combat Sports physics-based pose——后续做 "动态 dyno" 改进时再翻
2. 今天值得精读:
  • Simon Willison 的 V4 文章(≤ 30 分钟)
  • Martin Fowler 的 Harness Engineering(≤ 45 分钟)
  • ClimbingCap method 部分(≤ 30 分钟)
3. 今天值得复现 / 试用:
  • huggingface/ml-intern demo——跑通 Qwen3-1.7B + GPQA 的 baseline,验证 32% 数字
  • bytedance/vidi demo——拿一段你自己录的攀岩视频试一次时空 grounding
  • facebookresearch/sam3 + allenai/molmo——继续昨日 roadmap,把 "climber + hand on hold" 的 mask + pointing 跑通
4. 今天值得记到项目 roadmap(攀岩 app):
  • 数据集:在 The Way Up 之外加 AscendMotion (412k frames)
  • 模型:用 Molmo 2 替代/增强 "指点 + 跟踪" 子模块
  • 系统:用 Harness Engineering 框架重写 README,明确分 "Model 层 + Harness 层"
  • 推理:把 DeepSeek V4-Flash 自托管纳入备选 backbone
  • Eval:参考 SoK Agentic RAG (2603.07379) 给 agent 加 failure-mode eval
5. 今天面试可以拿来讲的 1–2 个点:
  • (高优先) "Agent = Model + Harness"——我做的不是 prompt engineering,是 harness engineering——能体现你对 agent 工程层的成熟理解。
  • "DeepSeek V4 把开源 SOTA 推到 SWE-bench 80.6%,让 self-hosted coding agent 真正可行"——能体现你跟踪模型市场结构 + 成本工程化的能力。

六、信息密度 / 信噪比说明

  • 今天"模型层(DeepSeek V4 + GPT-5.5)+ agent 工程层(ml-intern + Harness Engineering)+ 攀岩视觉层(ClimbingCap)"三个方向同时有强信号,不存在硬凑。
  • 与昨日(2026-04-25)相比,新的 marginal 信息主要集中在:(a) 开源模型实质追上闭源前沿(V4),(b) Harness Engineering 这一术语被命名,(c) 攀岩专用 3D 数据集 + 方法(ClimbingCap)补齐昨日缺口。
  • 没有为了凑数加任何 "AI 套壳" 类内容。OpenClaw、Agency-Agents 类高热但 unverified 的项目继续放在观察列表。
  • 自动生成于 2026-04-26 by AI 日报 scheduled task。
AI 日报 | 2026-04-29AI 日报 | 2026-04-25
Loading...