AI 日报 | 2026-05-26 | Tony‘s BLOG

type

Post

status

Published

date

May 26, 2026

slug

ai-daily-2026-05-26

summary

Anthropic $30B 大轮 + 教皇 AI 通谕标志「AI 进入系统性基础设施」时代；vLLM 0.20.2 MRV2 把 GB200 吞吐拉高 56%；Phoenix v16 + DeepEval v4.0.3 把 LLM eval 拉到 production-grade；Mistral 3 + Mistral Medium 3.5 开源；Berkeley 研究指出 agent harness 比 model 更影响分数；攀岩 app v0.3 周二聚焦：把 cost-aware router + climbing-coach skill 推进一格。

一、今日最重要的 5 条

1. Anthropic $30B 大轮 + 教皇通谕 Magnifica Humanitas（5/25）—— AI 正式进入「系统性基础设施」叙事

发生了什么：5/25 三事齐发：Anthropic 完成 $30B 融资、估值 $900B+，Q2 营收预计 $10.9B（YoY +130%）；教皇 Leo XIV 与 Anthropic 共同创始人 Chris Olah 联合发布首份关于 AI 的通谕 Magnifica Humanitas；OpenAI 准备 S-1 上市。

为什么重要：这是「AI 公司体量 + 财务模型 + 文明级讨论」三个层面同时被锚定的一天；后续 6 个月的政策、估值、人才市场都会受这条叙事影响。

对我有什么关系：求职 narrative 直接升级——「AI 已经从『新兴技术』变成『系统性基础设施』」，在面试讲产品/工程定位时可以引用这天作时间锚点。

时间：2026-05-25

链接：Anthropic news · Time: Google shifts to AI Search

2. vLLM 0.20.2（5/15）+ Model Runner V2 —— GB200 吞吐 +56%，serving 层正式换代

发生了什么：vLLM 5/15 发布 0.20.2，启用 VLLM_USE_V2_MODEL_RUNNER=1 后 GB200 吞吐 +56%；H100/Blackwell 上 FP8 默认 + continuous batching 默认 + SSE 默认；新接入 PegaFlow（外部 KV cache）与 MoE expert parallelism 改良。

为什么重要：以前讲「跑 frontier model 自托管」的成本拐点主要看 GPU；现在 serving 框架本身就能从同硬件上再榨 30~56%。对小团队/独立开发者，这是「能不能自托管」的关键一档。

对我有什么关系：v0.3 之后如果要把 climbing app 的 RAG/VLM 推理放到自己机器或便宜云上，vLLM 0.20.2 是 cost-aware stack 的默认推理后端；先记下 MRV2 + FP8 两个 flag。

链接：vLLM Blog · vLLM docs

3. Phoenix v16.0.0 + DeepEval v4.0.3（5/21）—— eval 进入 production-grade 工业化

发生了什么：5/21 同一天，Phoenix v16 上线 sandboxed Code Evaluators + LLM-jury composite；DeepEval v4.0.3 推出 Decision Graph Logic（agent 多步路径的细粒度评估）。

为什么重要：6/15 之后 agent 成本走独立信用池，「eval = 必修课」的窗口已经关上；现在没有 eval 的 agent 项目，等于没工程纪律。

对我有什么关系：v0.3 直接接 DeepEval pytest-style 做 climbing-eval；可以一周内出一个「10–20 段视频 × 5 类任务」的私测 set，写进 portfolio。

时间：2026-05-21

链接：Phoenix Releasebot · DeepEval

4. Mistral 3 + Mistral Medium 3.5（128B dense, 256K ctx, 开源 modified MIT）

发生了什么：Mistral 在 NVIDIA Nemotron Coalition 框架下发布 Mistral 3 多模态开源家族，并把 Mistral Medium 3.5 这款 128B dense + 256K ctx + 多模态 + 工具调用模型放出开源权重；Mistral 同步拿到 $830M 债务融资建巴黎 NVIDIA 数据中心。

为什么重要：Open-weights frontier 多了一家有真实算力承诺的玩家；128B dense + 256K ctx 比 MoE 在「微调成本与可解释性」上对独立开发者更友好。

对我有什么关系：当 DeepSeek V4 Flash 太大 / 推理太贵时，Mistral Medium 3.5 是「能放在单卡 H100 inference」的中型 frontier 候选；climbing app 的 VLM critique 层可以拿它做 head-to-head 测试。

链接：Mistral 3 announcement · Mistral 3 blog

5. Berkeley 研究：agent harness 比 model 更影响 benchmark 分数（同一 model 在不同 harness 上分差 30~50pp）

发生了什么：2026 年 Berkeley 研究复盘 SWE-bench Verified / WebArena 等八大主流 agent benchmark，发现这些 benchmark 可被「针对性 gaming」刷到接近满分但没解决任何真任务；同一 model 在不同 harness 包装下分数可以差 30–50pp。

为什么重要：这是「benchmark 已经不能直接拿来选 model」的转折点；接下来招聘与采购更看「私测 eval + 真任务 cost/quality」。

对我有什么关系：直接影响 portfolio narrative——写「我跑了 SWE-bench」不再加分，写「我建了自己的 10–20 任务私测 eval 跑了三家」才加分；这条与 #3 联动，是 5 月最值得马上动手的一对组合拳。

链接：Eval frameworks survey · DigitalApplied Eval Guide

二、按目标分类

A. 前沿模型 / 一手发布

A1. Mistral 3 + Medium 3.5（开源 frontier）

事件：Mistral 与 NVIDIA 共同发布 Mistral 3 多模态家族；Medium 3.5 128B dense / 256K ctx，modified MIT。

核心内容：dense 架构、长上下文、多模态、agent tool-use。

为什么重要：补足开源生态「中型 dense frontier」缺位（介于 DeepSeek V4 MoE 与小型开源模型之间）。

我需不需要点开：需要——把它写进 cost-aware router 的「中型」候选，与 Sonnet 4.6 做 head-to-head。

链接：Mistral 3 · Mistral & NVIDIA partnership

A2. LG EXAONE 4.5（开源 vision-language，33B 总参/1.2B vision encoder）

事件：LG AI Research 发布 EXAONE 4.5，首个 EXAONE 系列开源 vision-language 模型，集成 dedicated visual encoder，文档理解 + 韩语推理同尺寸领先。

核心内容：33B 总参、1.2B vision encoder，与 EXAONE 4.0 文本框架兼容。

为什么重要：开源 VLM 多一家选择；文档/表格 OCR 类下游任务可考虑。

我需不需要点开：简读——climbing app 当前不直接用 OCR，但作为「同尺寸 baseline」可以记一笔。

链接：Transformers v5 blog

A3. 4 家中国实验室开源 agentic coding model —— 成本仅 Claude Opus 4.7 的 1/3 以内

事件：本月 4 家中国实验室连续放出 open-weights agentic coding model，能力上限接近 Western frontier 但单位推理成本仅 Opus 4.7 的 1/3 以内。

核心内容：开源 + 低成本 + agentic engineering 能力。

为什么重要：「agent 成本曲线」从厂商定价主导逐渐被开源逼平；Anthropic 6/15 SDK 涨价的负担可以靠开源对冲。

我需不需要点开：需要——挑一家做 cost-aware router 的「便宜档」候选；DeepSeek V4 之外的备选。

链接：Sources.news Google Gemini coverage · Air Street State of AI

A4. Gemini 3.5 Flash（5/19 GA，复盘）

事件：5/19 GA，已成 AI Mode / Search / Gemini App 默认；Terminal-Bench 2.1 76.2% / GDPval-AA 1656 Elo / MCP Atlas 83.6%；速度 280+ tok/s。

核心内容：「frontier 智能 × 低价 × 4× 速度」三角同时落地。

为什么重要：与 #A3 联动，把「cheap-tier 候选池」一次性扩大到 Haiku / Gemini Flash / DeepSeek V4 Flash / Mistral Medium 3.5。

我需不需要点开：已读，不重复——继续按 cost-aware router 规划。

链接：Gemini 3.5 announcement · Artificial Analysis

B. AI 工程 / Agent / Coding workflow

B1. vLLM 0.20.2 + MRV2 + FP8

内容：5/15 发布；MRV2 启用后 GB200 吞吐 +56%；FP8 默认；continuous batching 默认；PegaFlow 外部 KV cache 接入。

可落地价值：自托管 inference 成本结构性下移；frontier model 上单卡 H100 可用度提升。

对我的意义：v0.3 之后 climbing app 的 VLM critique / RAG 推理可以走 vLLM 自托管做成本对照实验，结果写一篇 portfolio blog。

链接：vLLM Blog · vLLM Docs

B2. Phoenix v16 + DeepEval v4.0.3（同 5/21）+ Promptfoo（OpenAI 收购但保持 MIT）

内容：Phoenix sandboxed Code Evaluators + LLM-jury；DeepEval Decision Graph Logic；Promptfoo 被 OpenAI 收购但承诺 vendor-neutral。

可落地价值：「pytest-style + decision graph」组合可以测「agent 多步路径」而不是只测最终输出。

对我的意义：直接做——climbing-eval 10–20 任务 + 5 类 pass criteria，是 v0.3 portfolio 第一个 deliverable。

链接：DeepEval · Promptfoo

B3. Coder Agents Beta + Prismatic Skills for Claude Code

内容：Coder 推出企业自托管 agent infra；Prismatic 推出开源 Claude Code skill 用于集成开发。

可落地价值：「skill = 集成层」是新的事实工程范式；不需要写完整 MCP server 也能扩展能力边界。

对我的意义：把 climbing-coach 写成 skill（SKILL.md + scripts + resources）放公开 repo，依旧是 2026 工程师的 npm-package 级简历项。

链接：SD Times: May 8 AI updates

B4. Roo Code 已 archive —— 迁移到 Cline / Kilo Code

内容：Roo Code 在 5 月停更并 archive；活跃用户迁移到 Cline 或 Kilo Code。

可落地价值：选 IDE coding agent 时把 Roo 从候选移除；Cline 与 Kilo 现在是开源 IDE-native 第一梯队。

对我的意义：备选工具链更新——VS Code 用户优先 Cline；多 IDE / JetBrains 优先 Kilo。

链接：Best Open Source CLI Coding Agents 2026 · Kilo

C. 视觉 / 视频 / 运动人体分析

C1. NVlabs/VideoITG（CVPR 2026 Highlight）—— Instructed Temporal Grounding

内容：用 Video-LLM 的 visual-language alignment 做 discriminative frame selection，提升多模态视频理解任务表现。

与攀岩 app 的相关性：高——「上传视频 → 找出关键动作帧 → 提改进建议」的核心瓶颈就是「找对帧」，VideoITG 思路直接对应。

可迁移到项目的点：把 VideoITG 当 frame selector 接到攀岩 app 的 VLM critique 前置层。

优先级：高

链接：NVlabs/VideoITG

C2. ByteDance Vidi（Vidi 2.5 周末新版）—— 多模态视频理解 + 编辑

内容：Vidi 是一族 LMM 覆盖 VUE（Video Understanding & Editing）场景；新版 Vidi2.5 + VUE_PLOT benchmark + Vidi1.5-9B 微调代码全部开源。

与攀岩 app 的相关性：中-高——目前不做编辑，但「理解 + 高光剪辑」是 v0.4 / 1.0 之后的必经路径。

可迁移：先用 Vidi1.5-9B 跑一段攀岩视频的「片段理解 + 描述生成」，对比 GPT-5.5 多模态 + Gemini 3.5。

优先级：中

链接：bytedance/vidi

C3. ClimbingCap + FineBench + GLIMPSE（v0.3 主线，继续）

内容：RGB+LiDAR+IMU 攀岩数据集；细粒度视频 QA + 「VLM 是否真在看视频」评测。

与攀岩 app 的相关性：极高——3D ground truth + eval set 的最干净组合。

可迁移：3D pose baseline + VLM critique eval 子集。

优先级：高（v0.3 主线，本周动手）

链接：ClimbingCap arXiv 2503.21268 · 项目主页

C4. 「Hold Usage Detection in Sport Climbing」dataset（arXiv 2505.12854）

内容：攀岩岩点使用识别数据集，专门做「哪只手/脚用了哪个 hold」级别标注。

与攀岩 app 的相关性：极高——「动作经济性 + 用 hold 序列」是攀岩 critique 的关键变量，比 pose 单独看更接近 coach 的判断语言。

可迁移：与 ClimbingCap 形成「3D pose + hold sequence」双视图，coach 风格 critique 更准。

优先级：高（建议本周末加进 v0.3 数据计划）

链接：arXiv 2505.12854

C5. LiPE（lightweight pose estimator on mobile）—— MobileNetV2 backbone + depthwise separable deconv

内容：面向移动端的轻量 pose estimator，结构简单可改写。

与攀岩 app 的相关性：中——iOS/Android 端「本地实时关键点」候选，与 YOLO26-pose / RTMPose 并列。

可迁移：作为 edge 部署 backbone 候选；做一次三家移动 pose model 的延迟/精度对比。

优先级：中

链接：LiPE paper

D. 产品化 / 商业化 / 行业动态

D1. Anthropic $30B / OpenAI S-1 / NextEra $67B 收购 Dominion —— 「AI 算力 + 资本 + 电力」三线同步

动态：Anthropic 完成 $30B 大轮、估值 $900B+、Q2 营收预计 $10.9B；OpenAI 准备 S-1；NextEra Energy $67B 收购 Dominion，明牌就是为 AI 数据中心建发电与输电。

趋势判断：AI 进入「电力 + 长期合同」时代；估值与电力供给已经成为前沿模型成本曲线的真正瓶颈，而不是 GPU 单价。

启发：side project 不需要追前沿模型，但要追「下游」——能用 frontier model 做出真实业务价值的垂直工程师，在未来 12 个月会被市场重新定价。

链接：Crescendo AI News · Time: Google AI search

D2. Microsoft AI Diffusion 报告：AI 使用率 16.3% → 17.8%（Q1）

动态：Microsoft 5/7 报告全球 AI adoption 在 Q1 +1.5pp 至 17.8% 工作年龄人口；agentic AI 取代 chatbot wrapper 趋势固化。

趋势判断：「通用 chatbot wrapper」死局；「垂直 + 可证明业务结果 + 信任」是新三件套。

启发：攀岩 app 走垂直、可量化的「动作改进建议命中率」指标，比泛泛做「AI fitness app」更稀缺。

链接：Microsoft On the Issues

D3. Google AI Search 全面改造 + information agents

动态：Google 宣布 search bar 「25 年来最大重构」，AI 取代传统蓝链；推出 information agents（房源、行情等场景定时跟踪）。

趋势判断：「搜索」从一次性 query 变成「持续订阅 + 主动 push」；下游 SEO/广告体系将重新分配。

启发：portfolio 可以构思「攀岩训练 information agent」：用户给目标 + 关注岩馆 → agent 周报追踪状态变化。

链接：Google Search I/O 2026 · Time article

D4. Promptfoo 被 OpenAI 收购（3/9）+ 承诺 MIT vendor-neutral

动态：Promptfoo $86M 估值被 OpenAI 收购，承诺保持 MIT 开源 + vendor-neutral。

趋势判断：eval 工具进入「被收编但保持开源」阶段；意味着 eval 工程能力可能被纳入大厂订阅产品。

启发：眼下抓 eval 工程是稀缺技能；6 ~ 12 个月窗口期内是简历的明显加分项。

链接：Promptfoo

E. 学习价值 / 求职价值

E1. Berkeley「agent harness > model」研究 + DeepEval Decision Graph

内容：benchmark 可被 gaming；私测 eval + harness-aware 评估是新的工程纪律。

适合我怎么用：精读 + 复现——是「为什么我建私测 eval」的最强引用；面试用一句话讲清楚就能区分自己与「只会跑 benchmark」的候选人。

推荐动作：搭 climbing-eval（10–20 任务、5 类评分维度）；DeepEval Decision Graph 跑一遍。

链接：Eval survey arXiv · DeepEval

E2. NVlabs/VideoITG 论文 + 代码（CVPR 2026 Highlight）

内容：Instructed Temporal Grounding —— 用 VLM 选关键帧，提升下游视频理解。

适合我怎么用：精读 + 复现——这是「攀岩 app 把视频压成关键帧给 VLM」的现成工程模板。

推荐动作：周内跑一遍 demo，对比「naive uniform sampling vs VideoITG selection」在自己手头攀岩视频上的差异，写 portfolio blog。

链接：NVlabs/VideoITG

E3. Hold Usage Detection in Sport Climbing dataset（arXiv 2505.12854）

内容：攀岩 hold-level 使用标注。

适合我怎么用：精读 + 直接接入项目——与 ClimbingCap 形成 v0.3 双轨数据计划。

推荐动作：把 hold sequence 加进 climbing-eval 的 5 类任务之一（「输入视频 → 输出 hold sequence + 评论」）。

链接：arXiv 2505.12854

E4. vLLM Production Deployment Guide（多家 2026 版）

内容：MRV2 + FP8 + tensor parallel + Docker H100 部署指南，2026 版本已成新基线。

适合我怎么用：收藏 + 周末上手——攀岩 app v0.3 想做「自托管 cost 对比实验」时直接照搬。

推荐动作：选一份指南跟到底，记录单 token 实际成本。

链接：Spheron vLLM 2026 guide · SitePoint vLLM 2026 guide

E5. Anthropic 6/15 Agent SDK 信用池（再次提醒，6/15 已不到 3 周）

内容：6/15 起 Claude Agent SDK / claude -p / GitHub Actions 全部走独立 $200 信用池、list-price 计费。

适合我怎么用：面试硬素材——cost-aware router 项目本月必须有 v0.1。

推荐动作：本周内交付最简 router（Haiku/Flash → Sonnet → Opus 三档），记录单 task cost；写进 portfolio。

链接：Releasebot Anthropic

三、今日高分 GitHub Repo

今天剔除昨日已点评过的 mattpocock/skills、anthropics/skills、DeepSeek V4、ultralytics、VideoPose3D、VIBE、NVIDIA/Cosmos、n8n，聚焦新进入榜单 + 与攀岩 app 直接相关。

1. NVlabs/VideoITG

GitHub 链接：github.com/NVlabs/VideoITG

方向标签：video / multimodal / temporal grounding / CVPR 2026 Highlight

这项目是干什么的：Instructed Temporal Grounding，让 VLM 在长视频中选关键帧，提升下游视频理解任务表现。

为什么今天值得关注：CVPR 2026 Highlight，社区讨论度上升；NVIDIA 出品，质量有保证。

与我的相关性：极高——攀岩 app「上传视频 → 找关键动作帧」的核心模块直接对应。

上手成本：中

是否建议收藏：是

是否建议复现：是

一句话判断：「攀岩 app 的『frame selector』直接搬。」

2. bytedance/vidi（Vidi 2.5 新版）

GitHub 链接：github.com/bytedance/vidi

方向标签：video / multimodal / VUE (understanding + editing)

这项目是干什么的：覆盖视频理解 + 编辑的多模态大模型族；Vidi 2.5 + VUE_PLOT benchmark + 9B 权重 + 微调代码全开源。

为什么今天值得关注：新版周末刚 release；字节产研真投入。

与我的相关性：中-高——v0.4 / 1.0 加「高光剪辑」时必看。

上手成本：中

是否建议收藏：是

是否建议复现：周末跑一段攀岩视频做描述生成对比

一句话判断：「中国家学派的开源 VUE 第一梯队。」

3. AIDC-AI/Pixelle-Video

GitHub 链接：github.com/AIDC-AI/Pixelle-Video

方向标签：app / video generation / 自动化

这项目是干什么的：「输入主题 → 全自动生成完整短视频」（脚本 + 视觉 + 配音 + BGM + 合成），9.2k stars。

为什么今天值得关注：连续两周登 trending；TikTok / 短视频赛道有人在尝试用它替代视频团队。

与我的相关性：中——攀岩 app 未来生成「训练动作 demo 视频」时可参考其 pipeline。

上手成本：中

是否建议收藏：是

是否建议复现：周末单独花 1 小时跑 demo，看效果与稳定性

一句话判断：「热度高，文档需要验证；先跑 demo 再投入。」

4. pi-mono（agent toolkit + unified LLM API）

GitHub 链接：参考 pi-mono · GitHub Topics

方向标签：agent / dev tools / unified LLM API

这项目是干什么的：coding agent CLI + 统一封装 Anthropic/OpenAI/Google/Groq 的 LLM API + TUI/Web UI + Slack bot + vLLM pods，8.1k stars。

为什么今天值得关注：「统一 LLM API」是 cost-aware router 的基础设施；与 6/15 信用池变化高度协同。

与我的相关性：高——直接用作 climbing app 的 LLM 抽象层，省自写 router。

上手成本：低-中

是否建议收藏：是

是否建议复现：建议拿其 unified API 在本地跑一遍 Haiku/Flash/Sonnet 切换

一句话判断：「2026 个人 agent 的 lodash。」

5. vllm-project/vllm（0.20.2 / 0.21.0）

GitHub 链接：github.com/vllm-project/vllm

方向标签：inference / serving / infra

这项目是干什么的：高吞吐 / 内存友好的开源 LLM 推理与 serving 引擎。

为什么今天值得关注：5/15 0.20.2 + MRV2 / FP8 / continuous batching 全默认；自托管成本结构性下移。

与我的相关性：高——v0.3 之后做「自托管 cost 对比实验」必跑。

上手成本：中

是否建议收藏：是

是否建议复现：是

一句话判断：「自托管推理事实标准，必须熟一档 flag。」

6. confident-ai/deepeval

GitHub 链接：github.com/confident-ai/deepeval

方向标签：eval / pytest / decision graph

这项目是干什么的：pytest-style 的 LLM/agent eval 框架；v4.0.3（5/21）加 Decision Graph Logic。

为什么今天值得关注：与 Berkeley「benchmark 可 gaming」研究形成完美对照——下一步就是建私测 eval。

与我的相关性：极高——climbing-eval 的执行框架。

上手成本：低

是否建议收藏：是

是否建议复现：是（本周交付 climbing-eval v0.1）

一句话判断：「想被招就别再吹 SWE-bench，先把私测 eval 写出来。」

7. LJungang/Awesome-Video-Reasoning-Landscape

GitHub 链接：github.com/LJungang/Awesome-Video-Reasoning-Landscape

方向标签：survey / video reasoning / landscape

这项目是干什么的：video reasoning 任务、范式、benchmark 的开源 survey。

为什么今天值得关注：上行 trending；攀岩 app 的「动作理解 + 评论」属于 video reasoning 子集。

与我的相关性：中-高——一周内是「补课」最高效入口。

上手成本：低

是否建议收藏：是

是否建议复现：否（是 survey）

一句话判断：「省时间的最强 survey 入口。」

8. anthropics/skills（持续上升）

GitHub 链接：github.com/anthropics/skills

方向标签：agent / Claude Code skills 官方标准

这项目是干什么的：Anthropic 官方 reference skills（docx / pptx / pdf / xlsx / skill-creator 等）。

为什么今天值得关注：73k+ stars 持续涨；skill 已正式开放标准；与 Prismatic Skills for Claude Code 等社区项目对齐。

与我的相关性：高——climbing-coach skill 的目录结构与 README 模板。

上手成本：低

是否建议收藏：是

是否建议复现：写 climbing-coach skill

一句话判断：「agent 时代的 npm。」

9. ⚠️ 警告：Pixelle-Video / OpenHuman / pi-mono font 类热度需谨慎

现状：本周 trending 上「短视频自动化」「pi-mono 等同名字体项目」「OpenHuman 等情感拟人 demo」热度依旧高，但要分清「真工程」与「漂亮 demo」。

建议：热度高但价值需要验证——先看 issues 活跃度、release notes、文档完整度，再决定投入时间。

链接：Professor Glitch trending

四、今日最值得我看的 3 篇 / 3 个链接

NVlabs/VideoITG（CVPR 2026 Highlight, repo + paper） —— 攀岩 app 「frame selector」的现成工程模板；周内跑通就直接转化成 portfolio。link

Berkeley「agent harness > model」+ DeepEval Decision Graph —— 「为什么我自己建私测 eval」的最强引用 + 立刻能动手的框架。Eval survey · DeepEval

Hold Usage Detection in Sport Climbing dataset（arXiv 2505.12854） —— 攀岩动作分析里最稀缺的「hold-level 标注」数据集；与 ClimbingCap 互补，本周末就能加进 v0.3 数据计划。link

五、今日行动清单（最重要）

1) 收藏但不必立刻看

Anthropic $30B / 教皇通谕 / OpenAI S-1（行业叙事素材）：Crescendo News

Mistral 3 / Medium 3.5（中型 dense 开源 frontier，先记 cost-aware router 候选）：link

LG EXAONE 4.5（开源 VLM 备选）：Transformers v5 blog

Pixelle-Video（短视频自动化参考，周末跑 demo 即可）：link

2) 今天值得精读

NVlabs/VideoITG paper + repo：link

Berkeley agent harness 研究 + DeepEval Decision Graph 文档：Eval survey · DeepEval

Hold Usage Detection in Sport Climbing 论文：arXiv 2505.12854

3) 今天值得复现 / 试用

用 VideoITG demo 跑一段自己拍的攀岩视频，对比 uniform sampling 在 VLM critique 上的差异（小实验，1 个晚上能出图）。

用 DeepEval Decision Graph 写 climbing-eval/ 的第一个测试用例（先 1 个任务、3 个评分维度即可）。

pi-mono 试一下 unified LLM API，跑一段「相同 prompt 在 Haiku/Flash/Sonnet/Opus 上的成本对比」。

4) 值得纳入项目 roadmap

攀岩 app v0.3：把 VideoITG（frame selector）+ Hold Usage Detection（hold sequence）+ ClimbingCap（3D pose）三件套并入 pipeline；DeepEval 跑 climbing-eval v0.1。

portfolio 子项目：cost-aware router v0.1（Haiku/Flash → Sonnet 4.6 → Opus 4.7 三档），6/15 之前必须能跑，附 token cost log。

portfolio 子项目：climbing-coach skill（SKILL.md + scripts + 1 个 demo notebook），按 anthropics/skills 目录结构。

portfolio 子项目：vLLM 0.20.2 自托管 cost 对比实验（同一任务 × 三档 model × 云 vs 自托管），blog 一篇。

5) 面试可以拿来讲的 1–2 个点

「我看完 Berkeley 关于 agent harness 影响 benchmark 30~50pp 的研究后，就放弃用 SWE-bench Verified 做 portfolio 主打，转而用 DeepEval Decision Graph 给攀岩 app 建了 10–20 个真任务的私测 eval，跑三家 coding agent 对比，结论是 X。」

「攀岩动作分析的核心瓶颈不是 pose 单点，而是『关键帧选取 + hold 使用序列 + 3D pose』三层信息的对齐。我用 CVPR 2026 Highlight 的 NVlabs/VideoITG 做 frame selector，arXiv 2505.12854 的 hold-usage 数据集 + ClimbingCap 的 3D 数据集做评测，整条 pipeline 输出动作经济性 critique。」

六、备注

5/26 是周二，过去 48 小时（5/24–5/25 周末）真正的「重磅」集中在 Anthropic $30B + 教皇通谕这条「行业叙事级」消息；技术一手发布相对克制，所以本日报把重心放在「工程纪律落地」（vLLM 0.20.2 + Phoenix/DeepEval + cost-aware router + climbing-eval v0.1）。

攀岩 app 方向：本周可以把 VideoITG 与 Hold Usage Detection 数据集合进 v0.3 数据计划，与已经收口的 ClimbingCap + FineBench/GLIMPSE 形成「输入 → 关键帧 → pose + hold sequence → critique」完整通路。

警惕：trending 榜上「短视频自动化」「拟人 demo」类项目仍然高频出现，热度高但价值需要验证；同名 pi-mono 有两种含义（agent toolkit vs 字体），引用时分清。

Subquadratic / SubQ 12M ctx 仍未独立 benchmark，按昨日策略「先收藏不投入」。

6/15 Anthropic Agent SDK 信用池变更倒计时 20 天，cost-aware router v0.1 必须在 6/10 前跑通。

由 Claude 在 Cowork 模式下自动生成（autonomous scheduled task）。如某条信息真实性需进一步核对，请以官方原始链接为准。