AI 日报 | 2026-04-26 | Tony‘s BLOG

type

Post

status

Published

date

Apr 26, 2026

slug

summary

今日重点：DeepSeek V4 Pro/Flash 开源（1.6T MoE + 1M context + Hybrid Attention，SWE-bench 80.6% 几乎追平 Opus 4.6）；OpenAI GPT-5.5 全量上线；Hugging Face ml-intern 开源 ML engineer agent，在 GPQA 上压过 Claude Code；Anthropic Claude Code 最新版修复质量回退 + 引入 Visual Vim；Martin Fowler 提出 Harness Engineering 概念。攀岩 app 重点：ClimbingCap (RGB+LiDAR 3D 攀岩动作数据集) + AthletePose3D + 复用 SAM 3.1 / 4DHumans 路线。

一、今日最重要的 5 条

1. DeepSeek V4-Pro / V4-Flash 开源（1.6T MoE + 1M context + Hybrid Attention，MIT）

发生了什么：4 月 24 号 DeepSeek 公布 V4 系列，Pro 1.6T (49B activated)、Flash 284B (13B activated)，1M token 上下文，双双 MIT 开源（来源：DeepSeek API Docs / Simon Willison, 2026-04-24）。

为什么重要：在 1M 上下文下，V4-Pro 仅需 V3.2 27% 的单 token FLOPs 和 10% 的 KV cache；SWE-bench Verified 80.6%，距离 Claude Opus 4.6 仅 0.2 分，是历史上最强的开源 coding 模型。

对你：你的 coding agent / RAG 项目有了一个真正可商用的开源 backbone；做 portfolio 时"用 DeepSeek V4 自托管 coding agent"是有故事的方向。

链接：https://api-docs.deepseek.com/news/news260424 | https://simonwillison.net/2026/Apr/24/deepseek-v4/ | https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

2. OpenAI GPT-5.5 全量上线 ChatGPT + Codex

发生了什么：4 月 23 号 OpenAI 发布 GPT-5.5，主打 "do more with less guidance"——在数据分析、coding/debug、computer use、长程研究、文档/表格生成五个维度全面提升，距离 GPT-5.4 不到 2 个月（来源：CNBC, 2026-04-23）。

为什么重要：computer-use 与 agentic 工作流是 OpenAI 这一轮主战场，GPT-5.5 同步上 Codex 意味着 OpenAI 把 "agent 形态" 当作交付重心。

对你：做 coding agent 的 eval 套件需要把 GPT-5.5 加进 baseline；如果你只比较 Sonnet 4.6，会被认为 benchmark 脆弱。

链接：https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html | https://releasebot.io/updates/openai/codex

3. Hugging Face 开源 ml-intern：会读论文、会跑训练、会出报告的 ML engineer agent

发生了什么：4 月 21 号 HF 开源 ml-intern，基于 smolagents，能从 arXiv → HF Hub 数据集 → 训练脚本 → eval 全流程跑通，Demo 中把 Qwen3-1.7B 在 GPQA 从 10% → 32% (10 小时内)，超过 Claude Code 的 22.99%（来源：HF / MarkTechPost, 2026-04-21）。

为什么重要：这是第一次有 ML 团队认真把 "post-training as agent loop" 工程化；它的 moat 不是模型，而是 HF 生态访问能力——一个值得反复琢磨的产品方向。

对你：做 agent 项目时，可以借鉴它的 "研究 → 数据 → 训练 → eval" 循环结构；面试时是"专注垂直 agent 不是壳"的好案例。

链接：https://github.com/huggingface/ml-intern | https://www.marktechpost.com/2026/04/21/hugging-face-releases-ml-intern-an-open-source-ai-agent-that-automates-the-llm-post-training-workflow/

4. Martin Fowler 系统化 "Harness Engineering"：Agent = Model + Harness

发生了什么：4 月 Fowler 在自己博客发表 Harness engineering for coding agent users，把 agent 中除模型以外的一切（loop、tools、context 注入、permissions、错误恢复、评估）总结为 "harness"，并指出 harness 才是当下产品差异点。

为什么重要：这是与昨日 ETH "AGENTS.md 反而变差" 论文呼应的工程层范式定义——调模型 vs 调 harness 之争开始有清晰命名。

对你：求职 / 项目讨论里，能用 "我做的不是 prompt engineering 而是 harness engineering" 这种术语，会显著提升你的 agent 工程站位。

链接：https://martinfowler.com/articles/harness-engineering.html

5. ClimbingCap：RGB + LiDAR 的攀岩 3D 动作恢复方法 + AscendMotion 数据集（412k frames）

发生了什么：arXiv 2503.21268，专门面向攀岩任务，使用 RGB + LiDAR 双模态在 世界坐标系 下重建连续 3D 攀岩动作；附带 AscendMotion 数据集（344 分钟标注 + 441 分钟未标注，412k 帧，比 SPEED21 / CIMI4D 大一个量级）。

为什么重要：攀岩里强烈的自遮挡、贴墙、躯干扭曲是通用 3D pose 模型最难处理的场景，专用数据集 + 专用方法直接覆盖你 app 的核心用例。

对你（攀岩 app）：这是你 app 最直接相关的学术资产之一；即使你不做 LiDAR，也可以用 AscendMotion 做评测、用方法部分对比纯 RGB pipeline。

链接：https://arxiv.org/html/2503.21268v1

二、按目标分类

A. 前沿模型 / 一手发布

A1. DeepSeek V4-Pro / V4-Flash

事件：1.6T MoE / 284B MoE，1M token context，MIT 开源；Hybrid Attention (CSA + HCA)。

核心内容：长上下文成本骤降 + 开源；coding 能力追平闭源前沿。

为什么重要：第一个真正同时具备"前沿能力 + 开源 + 长上下文 + 商用许可"的模型。

我需不需要点开：需要，至少看 SGLang 的 day-0 部署博客判断本地部署可行性。

链接：https://api-docs.deepseek.com/news/news260424 | https://www.lmsys.org/blog/2026-04-25-deepseek-v4/

A2. OpenAI GPT-5.5

事件：4 月 23 号上线 ChatGPT/Codex 付费层，主打 "less guidance, more done"。

核心内容：computer-use、coding、长程研究全面提升。

为什么重要：OpenAI 把节奏压到 < 2 个月一次大更新。

我需不需要点开：需要，重点看它在 computer-use 子项的细节披露。

链接：https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html

A3. Anthropic Claude Code 新版（Visual Vim + MCP OAuth + 修复质量回退）

事件：本周 Claude Code 加入 Visual Vim、/tui 全屏模式、MCP server OAuth 重连修复，并修复了三处近期被反馈"变差"的原因（默认 reasoning effort 被压低、prompt cache 丢思考历史、verbosity prompt 影响 coding）。

核心内容：把质量退化机制公开、可追责。

为什么重要：业内第一次把"silent regression"当一等公民处理。

我需不需要点开：需要，特别是若你在自己工作流里用 Claude Code。

链接：https://releasebot.io/updates/anthropic/claude-code | https://github.com/anthropics/claude-code/releases

A4. Anthropic Operon（生物研究专用 agent，含实验室软件集成）

事件：本月公布的 Anthropic Labs 项目，把 Claude 接入实验室自动化工具链。

核心内容：典型的"垂直 agent + 真实 lab 工具"。

为什么重要：与 Cognition (coding) 一起，预示 Anthropic 这一轮押注"专用 agent + harness"路线，而不是只卖通用模型。

我需不需要点开：中等，关注其 harness 设计哲学，不必跟做。

链接：https://www.anthropic.com/news

A5. Molmo 2 / Vidi 2.5（开源视频理解）

事件：Ai2 Molmo 2（视频 grounding / 跟踪）+ ByteDance Vidi 2.5（hour-level 视频时空 grounding + Video QA）。

核心内容：开源端"长视频理解 + 物体级时空定位"路线已经成型。

为什么重要：你做攀岩动作分析时，需要从"原始视频 → 关键时段 + 关键人/物"，这两条路线分别对应不同 trade-off。

我需不需要点开：需要（视频线必看）。

链接：https://allenai.org/blog/molmo2 | https://bytedance.github.io/vidi-website/

B. AI 工程 / Agent / Coding workflow

B1. Martin Fowler — *Harness Engineering for Coding Agent Users*

内容：明确把 agent 拆成 "Model + Harness"，把工具链、循环、context 注入、错误恢复、eval 全部归到 harness 工程。

可落地价值：给"prompt engineering 到底属于哪一层"这种长期模糊问题画了线。

对我当前开发/学习的意义：写简历、写项目 README 时用 "harness engineering" 这一词比 "prompt engineering" 更专业、更具体。

链接：https://martinfowler.com/articles/harness-engineering.html

B2. Hugging Face ml-intern（end-to-end ML engineer agent）

内容：基于 smolagents，自动跑 "读 paper → 找数据 → 训练 → 评估 → 报告"；HF 还赠 $1000 GPU + Anthropic credits 给早期用户。

可落地价值：是"垂直 agent"目前最干净的开源参考实现之一。

对我当前开发/学习的意义：做 portfolio 时，借鉴它的"研究 loop"结构，可以把你的攀岩 app 拆成 "输入视频 → 解析动作 → 检索参考 → 给反馈" 的同构 loop。

链接：https://github.com/huggingface/ml-intern

B3. ICLR 2026 TurboQuant：3-bit KV cache 量化，零精度损失，6× 显存 + 8× attention 加速

内容：把 KV cache 压到 3 bit，attention 计算最高 8× 加速，对长上下文模型推理价格冲击非常大。

可落地价值：自己跑大模型（含 DeepSeek V4）时可以观望 SGLang/vLLM 何时集成，等到了就直接"白嫖"。

对我当前开发/学习的意义：理解"为什么 1M 上下文今年开始大量 affordable"的技术原因，面试 infra/inference 题非常加分。

链接：https://www.devflokers.com/blog/ai-news-last-24-hours-april-2026-model-releases-breakthroughs

B4. SoK: Agentic RAG (arXiv 2603.07379)

内容：把 agentic RAG 形式化为有限 horizon POMDP，列出 hallucination propagation / memory poisoning / cascading tool failure 等系统性风险。

可落地价值：当下做 agentic RAG eval 时的"风险目录"，避免你 eval 只测 success 不测 failure mode。

对我当前开发/学习的意义：你写 RAG/agent 项目时，从这里挑 3 个 failure mode 写进 eval，立刻显得专业。

链接：https://arxiv.org/abs/2603.07379

C. 视觉 / 视频 / 运动人体分析（攀岩动作分析重点）

C1. ClimbingCap + AscendMotion 数据集（arXiv 2503.21268）

内容：RGB + LiDAR 双模态、世界坐标系下连续 3D 攀岩动作恢复；AscendMotion 412k frames。

与攀岩 app 相关性：极高。

可迁移到项目的点：(1) 用 AscendMotion 做 baseline 评测；(2) 即使只用 RGB，也可以借鉴它的 "camera-coord 重建 → 全局对齐" 两段式思路；(3) 研究他们怎么处理贴墙自遮挡。

优先级：高

链接：https://arxiv.org/html/2503.21268v1

C2. AthletePose3D（arXiv 2503.07499）

内容：12 类运动 / 1.3M frames / 165k 单帧 3D 姿态，专门覆盖高速度高加速度运动。

与攀岩 app 相关性：中-高，攀岩并非高速运动，但"瞬间发力 / 动态 dyno"段需要这种高频数据辅助。

可迁移到项目的点：可作为补充 pretrain 数据集；用作单目 3D pose 的 hard case eval。

优先级：中

链接：https://arxiv.org/html/2503.07499

C3. Molmo 2 (Ai2)：视频物体追踪 / 指点 / 多帧推理

内容：8B / 4B 两档；在视频 tracking 上压过 Gemini 3 Pro 与多个开源同类；附带 100k+ 视频 caption + 431k clip captions 开源。

与攀岩 app 相关性：高。它在 "video pointing" 上的能力，恰好能用来"在视频里指出某只手抓的是哪个 hold"。

可迁移到项目的点：可以替代/补充 SAM 3.1，作为 "video QA + pointing" 的工具层。

优先级：中-高

链接：https://allenai.org/blog/molmo2

C4. Vidi 2.5（ByteDance）：hour-level 视频时空 grounding + Video QA

内容：从 Vidi 1.0 (temporal retrieval) → 2.0 (spatio-temporal grounding) → 2.5 的迭代；hour-long video 是默认输入假设。

与攀岩 app 相关性：中，攀岩 app 单条视频通常只有几分钟，但训练馆全场录像时长视频能力是 nice-to-have。

可迁移到项目的点：长视频里 "找某条线、某段动作" 的 query 能力。

优先级：中

链接：https://bytedance.github.io/vidi-website/ | https://github.com/bytedance/vidi

C5. Multi-person Physics-based Pose Estimation for Combat Sports（arXiv 2504.08175）

内容：稀疏多机位下的 3D 多人姿态估计 + 物理约束。

与攀岩 app 相关性：低-中，攀岩通常单人、单机位，但物理约束的思路（关节限制、地面 / 墙面接触）值得借鉴。

可迁移到项目的点：把 "墙面 + 抓握点接触" 当作物理约束，可以显著修正纯数据驱动姿态预测的飘移。

优先级：中

链接：https://arxiv.org/html/2504.08175

D. 产品化 / 商业化 / 行业动态

D1. DeepSeek V4 上线 → 中国侧推理价格继续下探

动态：V4-Pro/Flash 全部 MIT 开源，在 1M context 下推理 FLOPs 仅 V3.2 的 27%。

背后的趋势判断：开源端首次具备"对 OpenAI/Anthropic 价格的实质压力"——闭源厂商只能继续往"agent 产品 + 工具链 + 企业 SaaS"上撤。

对 side project / 求职 / 项目方向的启发：你的 indie 项目可以先用 Claude/GPT 做原型、生产环境用 DeepSeek 自托管，这是 2026 年最现实的成本结构。

链接：https://api-docs.deepseek.com/news/news260424

D2. OpenAI GPT-5.5 + Codex Plan Mode 强化

动态：GPT-5.5 打 "super-app"，Codex 同步加强 sandboxing / Plan Mode / TUI 协作。

背后的趋势判断：OpenAI 把 "产品级 agent surface" 押到 ChatGPT 主端 + Codex 两个入口，少做 API；策略与 Anthropic 押 SDK + Claude Code 形成对照。

对 side project / 求职 / 项目方向的启发：如果你的项目想接 OpenAI agent 生态，重点看 ChatGPT 的 actions / app surface，而不是单 API。

链接：https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html

D3. Hugging Face 用 ml-intern 切入 "AI 自动跑实验"赛道

动态：HF 不只是模型 hub，开始用 agent 把整个 post-training pipeline 自动化，并赠 GPU + credits 拉早期用户。

背后的趋势判断："ML 自动化 / AutoML for LLM" 这一层 2026 会是新战场，HF 想用生态而非模型质量做护城河。

对 side project / 求职 / 项目方向的启发：在简历/面试里讲 "我做的 X agent 不是单步 RAG，而是闭环 research loop" 是高溢价表达。

链接：https://github.com/huggingface/ml-intern

D4. Anthropic Operon（生物 agent）+ Claude Design + Managed Agents

动态：Anthropic 的产品矩阵从单一 Claude 模型 → "Claude + 一组场景化 agent + 平台"。

背后的趋势判断：模型能力差异减小，竞争开始转向"垂直 + harness + ops"。

对 side project / 求职 / 项目方向的启发：你做攀岩 app 时也可以照搬这种"模型 + 场景 harness + 数据闭环"的产品框架。

链接：https://www.anthropic.com/news

E. 学习价值 / 求职价值

E1. Martin Fowler — *Harness Engineering*

适合我怎么用：精读 + 面试表达

推荐动作：精读 30–45 分钟；总结成 1 张图（Model vs Harness 的边界、harness 的 7 个组件）；面试中作为 "我的 agent 项目" 总览页第一句话。

链接：https://martinfowler.com/articles/harness-engineering.html

E2. DeepSeek V4 技术报告 + SGLang Day-0 部署博客

适合我怎么用：精读 + 复现

推荐动作：(1) 看 V4 技术 highlights（Hybrid Attention、长上下文经济性）；(2) 看 SGLang 怎么 day-0 部署；(3) 在你最熟的 GPU 配置上估一遍可行性，写成 1 页 "deploying V4-Flash for cheap coding agent" Notion。

链接：https://www.lmsys.org/blog/2026-04-25-deepseek-v4/ | https://simonwillison.net/2026/Apr/24/deepseek-v4/

E3. ClimbingCap 论文 + AscendMotion 数据集

适合我怎么用：精读 + 复现 + 写进项目 roadmap

推荐动作：(1) 精读 method（30 分钟）；(2) 把 AscendMotion 加进你的 eval set；(3) 与 The Way Up + 4DHumans 合并出一份"攀岩动作分析数据 + 模型 baseline"清单。

链接：https://arxiv.org/html/2503.21268v1

三、今日高分 GitHub Repo

Repo 1：deepseek-ai/DeepSeek-V4-Pro

GitHub / HF 链接：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

方向标签：foundation model / open weights / coding

这项目是干什么的：DeepSeek V4-Pro 1.6T MoE 开源权重 + 配套推理脚本。

为什么今天值得关注：MIT 许可 + 1M context + SWE-bench 80.6%——开源端首次真正贴近 Opus 4.6。

与我的相关性：高，未来你的 self-hosted agent 几乎一定会用到它的某个变体。

上手成本：高（Pro 要 8×H100/H200 级别），Flash 友好得多。

是否建议我收藏：是

是否建议我复现：先复现 Flash（284B/13B activated）即可，Pro 等社区量化版。

一句话判断：今年最重要的开源模型，先看 Flash 跑通，再决定要不要上 Pro。

Repo 2：huggingface/ml-intern

GitHub 链接：https://github.com/huggingface/ml-intern

方向标签：agent / AutoML / dev tools

这项目是干什么的：基于 smolagents 的端到端 ML engineer agent，能读 paper、找数据、训模型、出报告。

为什么今天值得关注：4 月 21 号开源，已经在 GPQA 上把 Claude Code 比下去；HF 配套发 GPU 与 Anthropic credits 拉用户。

与我的相关性：高，对你做 "垂直 agent" 项目的架构参考价值很大。

上手成本：中

是否建议我收藏：是

是否建议我复现：跑一次它的 demo（Qwen3-1.7B 上 GPQA），看能不能复现 32% 数字。

一句话判断：当前最干净的端到端垂直 agent 开源参考实现。

Repo 3：bytedance/vidi

GitHub 链接：https://github.com/bytedance/vidi

方向标签：video / multimodal / temporal-grounding

这项目是干什么的：Vidi 系列的官方仓库，支持 hour-level 视频的时空 grounding + Video QA。

为什么今天值得关注：长视频里 "用一句话定位时间段 + 物体 bounding box" 是当前最有用的视频理解能力之一。

与我的相关性：中-高，攀岩教练录像、整场比赛回放的 "找到关键 move" 是直接用例。

上手成本：中

是否建议我收藏：是

是否建议我复现：跑一次它的 demo，再用一段攀岩视频测它的时空 grounding 行不行。

一句话判断：长视频 "找东西" 的开源最强实现。

Repo 4：allenai/molmo (Molmo 2)

GitHub / 模型链接：https://allenai.org/blog/molmo2

方向标签：multimodal / video / pointing / tracking

这项目是干什么的：Ai2 Molmo 2，视频理解 + pointing + tracking 全能开源多模态。

为什么今天值得关注：在 video tracking 上压过 Gemini 3 Pro，是开源端最强 video pointing/tracking 模型。

与我的相关性：高，"在攀岩视频里指出当前手 / 脚 / 抓的 hold" 是它的天然用例。

上手成本：中

是否建议我收藏：是

是否建议我复现：用 Molmo 2 在你的攀岩样本上做 "指出动作差异" 的小 demo。

一句话判断：SAM 3.1 解决 "框选"，Molmo 2 解决 "指点"，两者搭配最强。

Repo 5：anthropics/claude-code

GitHub 链接：https://github.com/anthropics/claude-code

方向标签：agent / dev tools

这项目是干什么的：Claude Code 与 Claude Agent SDK 的官方 release 仓库。

为什么今天值得关注：本周更新加 Visual Vim、/tui、修复多个 silent regression，OAuth 链路修复。

与我的相关性：高，做 coding agent / dev tool 必看。

上手成本：低

是否建议我收藏：是

是否建议我复现：基于 SDK 写一个最小自定义 agent，验证最新 prompt cache 与 reasoning effort 默认值。

一句话判断："agent 工程" 当前最完整的商用参考实现之一。

Repo 6：Ayanami0730/arag (A-RAG)

GitHub 链接：https://github.com/Ayanami0730/arag

方向标签：RAG / agent / retrieval

这项目是干什么的：A-RAG 框架，把检索拆成 keyword search / semantic search / chunk read 三个 tool，让 agent 自己组合。

为什么今天值得关注：是"分层检索接口"思路里目前最干净的开源实现，对 multi-hop QA 效果好。

与我的相关性：中，给你后续 agent + 长文档/知识库做 baseline。

上手成本：中

是否建议我收藏：是

是否建议我复现：跑一次它的多跳 QA demo，对比单 retriever 的差异。

一句话判断：做 agent 时的好 RAG baseline，不要再写自己的简陋检索。

Repo 7：facebookresearch/sam3

GitHub 链接：https://github.com/facebookresearch/sam3

方向标签：video / segmentation / multimodal

这项目是干什么的：Meta SAM 3 / SAM 3.1 官方代码，concept-prompt 视频分割追踪。

为什么今天值得关注：与 Molmo 2 / Vidi 一起，构成攀岩 app 视频前处理 "分割 + 指点 + 时空 grounding" 三件套。

与我的相关性：高

上手成本：中

是否建议我收藏：是

是否建议我复现：仍建议（昨日已强调），优先级高于 Molmo 2/Vidi。

一句话判断：视频前处理的事实标准 baseline。

Repo 8：VoltAgent/awesome-ai-agent-papers

GitHub 链接：https://github.com/VoltAgent/awesome-ai-agent-papers

方向标签：research / curation / agent

这项目是干什么的：2026 agent 方向论文索引，按工程 / memory / eval / workflow / autonomy 分类。

为什么今天值得关注：本周持续高频更新，是当下最活跃的 agent 论文 RSS 替代。

与我的相关性：高

上手成本：低

是否建议我收藏：是

是否建议我复现：N/A，watch 即可。

一句话判断：用它替你订 arXiv。

警告 ⚠️：Agency-Agents、ml-intern 之外的 "自演化 agent" 仍处早期，文档不完整、可复现性差，先观察社区第三方复现，不要 all-in。

四、今日最值得我看的 3 篇 / 3 个链接

1. Simon Willison — *DeepSeek V4: almost on the frontier, a fraction of the price*

为什么是今天最值得点开：Simon 的总结密度极高，30 分钟之内读完就能完整 grasp V4 的 "为什么重要 + 部署成本 + 与 Opus 4.6 的对比"——比读 DeepSeek 自己的 docs 还快。

链接：https://simonwillison.net/2026/Apr/24/deepseek-v4/

2. Martin Fowler — *Harness Engineering for Coding Agent Users*

为什么是今天最值得点开：给"agent 工程"画了语义边界，是"未来 1 年面试 agent 题的共同语言"，越早内化越值。

链接：https://martinfowler.com/articles/harness-engineering.html

3. ClimbingCap (arXiv 2503.21268)

为什么是今天最值得点开：你 app 的核心能力（单目视频 → 攀岩 3D 动作 → 改进建议）目前最强的一手学术参考。

链接：https://arxiv.org/html/2503.21268v1

五、今日行动清单（最重要）

1. 今天值得收藏但不必立刻看：

TurboQuant（KV cache 3-bit）—— 等 SGLang/vLLM 集成再说

Anthropic Operon、Claude Design——产品方向跟踪

AthletePose3D、Combat Sports physics-based pose——后续做 "动态 dyno" 改进时再翻

2. 今天值得精读：

Simon Willison 的 V4 文章（≤ 30 分钟）

Martin Fowler 的 Harness Engineering（≤ 45 分钟）

ClimbingCap method 部分（≤ 30 分钟）

3. 今天值得复现 / 试用：

huggingface/ml-intern demo——跑通 Qwen3-1.7B + GPQA 的 baseline，验证 32% 数字

bytedance/vidi demo——拿一段你自己录的攀岩视频试一次时空 grounding

facebookresearch/sam3 + allenai/molmo——继续昨日 roadmap，把 "climber + hand on hold" 的 mask + pointing 跑通

4. 今天值得记到项目 roadmap（攀岩 app）：

数据集：在 The Way Up 之外加 AscendMotion (412k frames)

模型：用 Molmo 2 替代/增强 "指点 + 跟踪" 子模块

系统：用 Harness Engineering 框架重写 README，明确分 "Model 层 + Harness 层"

推理：把 DeepSeek V4-Flash 自托管纳入备选 backbone

Eval：参考 SoK Agentic RAG (2603.07379) 给 agent 加 failure-mode eval

5. 今天面试可以拿来讲的 1–2 个点：

(高优先) "Agent = Model + Harness"——我做的不是 prompt engineering，是 harness engineering——能体现你对 agent 工程层的成熟理解。

"DeepSeek V4 把开源 SOTA 推到 SWE-bench 80.6%，让 self-hosted coding agent 真正可行"——能体现你跟踪模型市场结构 + 成本工程化的能力。

六、信息密度 / 信噪比说明

今天"模型层（DeepSeek V4 + GPT-5.5）+ agent 工程层（ml-intern + Harness Engineering）+ 攀岩视觉层（ClimbingCap）"三个方向同时有强信号，不存在硬凑。

与昨日（2026-04-25）相比，新的 marginal 信息主要集中在：(a) 开源模型实质追上闭源前沿（V4），(b) Harness Engineering 这一术语被命名，(c) 攀岩专用 3D 数据集 + 方法（ClimbingCap）补齐昨日缺口。

没有为了凑数加任何 "AI 套壳" 类内容。OpenClaw、Agency-Agents 类高热但 unverified 的项目继续放在观察列表。

自动生成于 2026-04-26 by AI 日报 scheduled task。