📰AI 日报 | 2026-05-26
type
Post
status
Published
date
May 26, 2026
slug
ai-daily-2026-05-26
summary
Anthropic $30B 大轮 + 教皇 AI 通谕标志「AI 进入系统性基础设施」时代;vLLM 0.20.2 MRV2 把 GB200 吞吐拉高 56%;Phoenix v16 + DeepEval v4.0.3 把 LLM eval 拉到 production-grade;Mistral 3 + Mistral Medium 3.5 开源;Berkeley 研究指出 agent harness 比 model 更影响分数;攀岩 app v0.3 周二聚焦:把 cost-aware router + climbing-coach skill 推进一格。
tags
新闻
开发
category
技术分享
icon
📰
password
Comment
Buy-side 风格工程情报简报。今天的关键词:Anthropic $30B 大轮 + 教皇 AI 通谕标志『系统性基础设施』、vLLM 0.20.2 MRV2 + 56% 吞吐、Phoenix v16/DeepEval v4 把 eval 拉到 production、Mistral 3 / Medium 3.5 开源、Berkeley 警告 agent harness > model

一、今日最重要的 5 条

1. Anthropic $30B 大轮 + 教皇通谕 Magnifica Humanitas(5/25)—— AI 正式进入「系统性基础设施」叙事
  • 发生了什么:5/25 三事齐发:Anthropic 完成 $30B 融资、估值 $900B+,Q2 营收预计 $10.9B(YoY +130%);教皇 Leo XIV 与 Anthropic 共同创始人 Chris Olah 联合发布首份关于 AI 的通谕 Magnifica Humanitas;OpenAI 准备 S-1 上市。
  • 为什么重要:这是「AI 公司体量 + 财务模型 + 文明级讨论」三个层面同时被锚定的一天;后续 6 个月的政策、估值、人才市场都会受这条叙事影响。
  • 对我有什么关系:求职 narrative 直接升级——「AI 已经从『新兴技术』变成『系统性基础设施』」,在面试讲产品/工程定位时可以引用这天作时间锚点。
  • 时间:2026-05-25
2. vLLM 0.20.2(5/15)+ Model Runner V2 —— GB200 吞吐 +56%,serving 层正式换代
  • 发生了什么:vLLM 5/15 发布 0.20.2,启用 VLLM_USE_V2_MODEL_RUNNER=1 后 GB200 吞吐 +56%;H100/Blackwell 上 FP8 默认 + continuous batching 默认 + SSE 默认;新接入 PegaFlow(外部 KV cache)与 MoE expert parallelism 改良。
  • 为什么重要:以前讲「跑 frontier model 自托管」的成本拐点主要看 GPU;现在 serving 框架本身就能从同硬件上再榨 30~56%。对小团队/独立开发者,这是「能不能自托管」的关键一档。
  • 对我有什么关系:v0.3 之后如果要把 climbing app 的 RAG/VLM 推理放到自己机器或便宜云上,vLLM 0.20.2 是 cost-aware stack 的默认推理后端;先记下 MRV2 + FP8 两个 flag。
3. Phoenix v16.0.0 + DeepEval v4.0.3(5/21)—— eval 进入 production-grade 工业化
  • 发生了什么:5/21 同一天,Phoenix v16 上线 sandboxed Code Evaluators + LLM-jury composite;DeepEval v4.0.3 推出 Decision Graph Logic(agent 多步路径的细粒度评估)。
  • 为什么重要:6/15 之后 agent 成本走独立信用池,「eval = 必修课」的窗口已经关上;现在没有 eval 的 agent 项目,等于没工程纪律。
  • 对我有什么关系:v0.3 直接接 DeepEval pytest-style 做 climbing-eval;可以一周内出一个「10–20 段视频 × 5 类任务」的私测 set,写进 portfolio。
  • 时间:2026-05-21
4. Mistral 3 + Mistral Medium 3.5(128B dense, 256K ctx, 开源 modified MIT)
  • 发生了什么:Mistral 在 NVIDIA Nemotron Coalition 框架下发布 Mistral 3 多模态开源家族,并把 Mistral Medium 3.5 这款 128B dense + 256K ctx + 多模态 + 工具调用模型放出开源权重;Mistral 同步拿到 $830M 债务融资建巴黎 NVIDIA 数据中心。
  • 为什么重要:Open-weights frontier 多了一家有真实算力承诺的玩家;128B dense + 256K ctx 比 MoE 在「微调成本与可解释性」上对独立开发者更友好。
  • 对我有什么关系:当 DeepSeek V4 Flash 太大 / 推理太贵时,Mistral Medium 3.5 是「能放在单卡 H100 inference」的中型 frontier 候选;climbing app 的 VLM critique 层可以拿它做 head-to-head 测试。
5. Berkeley 研究:agent harness 比 model 更影响 benchmark 分数(同一 model 在不同 harness 上分差 30~50pp)
  • 发生了什么:2026 年 Berkeley 研究复盘 SWE-bench Verified / WebArena 等八大主流 agent benchmark,发现这些 benchmark 可被「针对性 gaming」刷到接近满分但没解决任何真任务;同一 model 在不同 harness 包装下分数可以差 30–50pp。
  • 为什么重要:这是「benchmark 已经不能直接拿来选 model」的转折点;接下来招聘与采购更看「私测 eval + 真任务 cost/quality」。
  • 对我有什么关系:直接影响 portfolio narrative——写「我跑了 SWE-bench」不再加分,写「我建了自己的 10–20 任务私测 eval 跑了三家」才加分;这条与 #3 联动,是 5 月最值得马上动手的一对组合拳。

二、按目标分类

A. 前沿模型 / 一手发布

A1. Mistral 3 + Medium 3.5(开源 frontier)
  • 事件:Mistral 与 NVIDIA 共同发布 Mistral 3 多模态家族;Medium 3.5 128B dense / 256K ctx,modified MIT。
  • 核心内容:dense 架构、长上下文、多模态、agent tool-use。
  • 为什么重要:补足开源生态「中型 dense frontier」缺位(介于 DeepSeek V4 MoE 与小型开源模型之间)。
  • 我需不需要点开:需要——把它写进 cost-aware router 的「中型」候选,与 Sonnet 4.6 做 head-to-head。
A2. LG EXAONE 4.5(开源 vision-language,33B 总参/1.2B vision encoder)
  • 事件:LG AI Research 发布 EXAONE 4.5,首个 EXAONE 系列开源 vision-language 模型,集成 dedicated visual encoder,文档理解 + 韩语推理同尺寸领先。
  • 核心内容:33B 总参、1.2B vision encoder,与 EXAONE 4.0 文本框架兼容。
  • 为什么重要:开源 VLM 多一家选择;文档/表格 OCR 类下游任务可考虑。
  • 我需不需要点开:简读——climbing app 当前不直接用 OCR,但作为「同尺寸 baseline」可以记一笔。
A3. 4 家中国实验室开源 agentic coding model —— 成本仅 Claude Opus 4.7 的 1/3 以内
  • 事件:本月 4 家中国实验室连续放出 open-weights agentic coding model,能力上限接近 Western frontier 但单位推理成本仅 Opus 4.7 的 1/3 以内。
  • 核心内容:开源 + 低成本 + agentic engineering 能力。
  • 为什么重要:「agent 成本曲线」从厂商定价主导逐渐被开源逼平;Anthropic 6/15 SDK 涨价的负担可以靠开源对冲。
  • 我需不需要点开:需要——挑一家做 cost-aware router 的「便宜档」候选;DeepSeek V4 之外的备选。
A4. Gemini 3.5 Flash(5/19 GA,复盘)
  • 事件:5/19 GA,已成 AI Mode / Search / Gemini App 默认;Terminal-Bench 2.1 76.2% / GDPval-AA 1656 Elo / MCP Atlas 83.6%;速度 280+ tok/s。
  • 核心内容:「frontier 智能 × 低价 × 4× 速度」三角同时落地。
  • 为什么重要:与 #A3 联动,把「cheap-tier 候选池」一次性扩大到 Haiku / Gemini Flash / DeepSeek V4 Flash / Mistral Medium 3.5。
  • 我需不需要点开:已读,不重复——继续按 cost-aware router 规划。

B. AI 工程 / Agent / Coding workflow

B1. vLLM 0.20.2 + MRV2 + FP8
  • 内容:5/15 发布;MRV2 启用后 GB200 吞吐 +56%;FP8 默认;continuous batching 默认;PegaFlow 外部 KV cache 接入。
  • 可落地价值:自托管 inference 成本结构性下移;frontier model 上单卡 H100 可用度提升。
  • 对我的意义:v0.3 之后 climbing app 的 VLM critique / RAG 推理可以走 vLLM 自托管做成本对照实验,结果写一篇 portfolio blog。
B2. Phoenix v16 + DeepEval v4.0.3(同 5/21)+ Promptfoo(OpenAI 收购但保持 MIT)
  • 内容:Phoenix sandboxed Code Evaluators + LLM-jury;DeepEval Decision Graph Logic;Promptfoo 被 OpenAI 收购但承诺 vendor-neutral。
  • 可落地价值:「pytest-style + decision graph」组合可以测「agent 多步路径」而不是只测最终输出。
  • 对我的意义:直接做——climbing-eval 10–20 任务 + 5 类 pass criteria,是 v0.3 portfolio 第一个 deliverable。
B3. Coder Agents Beta + Prismatic Skills for Claude Code
  • 内容:Coder 推出企业自托管 agent infra;Prismatic 推出开源 Claude Code skill 用于集成开发。
  • 可落地价值:「skill = 集成层」是新的事实工程范式;不需要写完整 MCP server 也能扩展能力边界。
  • 对我的意义:把 climbing-coach 写成 skill(SKILL.md + scripts + resources)放公开 repo,依旧是 2026 工程师的 npm-package 级简历项。
B4. Roo Code 已 archive —— 迁移到 Cline / Kilo Code
  • 内容:Roo Code 在 5 月停更并 archive;活跃用户迁移到 Cline 或 Kilo Code。
  • 可落地价值:选 IDE coding agent 时把 Roo 从候选移除;Cline 与 Kilo 现在是开源 IDE-native 第一梯队。
  • 对我的意义:备选工具链更新——VS Code 用户优先 Cline;多 IDE / JetBrains 优先 Kilo。

C. 视觉 / 视频 / 运动人体分析

C1. NVlabs/VideoITG(CVPR 2026 Highlight)—— Instructed Temporal Grounding
  • 内容:用 Video-LLM 的 visual-language alignment 做 discriminative frame selection,提升多模态视频理解任务表现。
  • 与攀岩 app 的相关性:——「上传视频 → 找出关键动作帧 → 提改进建议」的核心瓶颈就是「找对帧」,VideoITG 思路直接对应。
  • 可迁移到项目的点:把 VideoITG 当 frame selector 接到攀岩 app 的 VLM critique 前置层。
  • 优先级:
C2. ByteDance Vidi(Vidi 2.5 周末新版)—— 多模态视频理解 + 编辑
  • 内容:Vidi 是一族 LMM 覆盖 VUE(Video Understanding & Editing)场景;新版 Vidi2.5 + VUE_PLOT benchmark + Vidi1.5-9B 微调代码全部开源。
  • 与攀岩 app 的相关性:中-高——目前不做编辑,但「理解 + 高光剪辑」是 v0.4 / 1.0 之后的必经路径。
  • 可迁移:先用 Vidi1.5-9B 跑一段攀岩视频的「片段理解 + 描述生成」,对比 GPT-5.5 多模态 + Gemini 3.5。
  • 优先级:
C3. ClimbingCap + FineBench + GLIMPSE(v0.3 主线,继续)
  • 内容:RGB+LiDAR+IMU 攀岩数据集;细粒度视频 QA + 「VLM 是否真在看视频」评测。
  • 与攀岩 app 的相关性:极高——3D ground truth + eval set 的最干净组合。
  • 可迁移:3D pose baseline + VLM critique eval 子集。
  • 优先级:高(v0.3 主线,本周动手)
C4. 「Hold Usage Detection in Sport Climbing」dataset(arXiv 2505.12854)
  • 内容:攀岩岩点使用识别数据集,专门做「哪只手/脚用了哪个 hold」级别标注。
  • 与攀岩 app 的相关性:极高——「动作经济性 + 用 hold 序列」是攀岩 critique 的关键变量,比 pose 单独看更接近 coach 的判断语言。
  • 可迁移:与 ClimbingCap 形成「3D pose + hold sequence」双视图,coach 风格 critique 更准。
  • 优先级:高(建议本周末加进 v0.3 数据计划)
C5. LiPE(lightweight pose estimator on mobile)—— MobileNetV2 backbone + depthwise separable deconv
  • 内容:面向移动端的轻量 pose estimator,结构简单可改写。
  • 与攀岩 app 的相关性:——iOS/Android 端「本地实时关键点」候选,与 YOLO26-pose / RTMPose 并列。
  • 可迁移:作为 edge 部署 backbone 候选;做一次三家移动 pose model 的延迟/精度对比。
  • 优先级:

D. 产品化 / 商业化 / 行业动态

D1. Anthropic $30B / OpenAI S-1 / NextEra $67B 收购 Dominion —— 「AI 算力 + 资本 + 电力」三线同步
  • 动态:Anthropic 完成 $30B 大轮、估值 $900B+、Q2 营收预计 $10.9B;OpenAI 准备 S-1;NextEra Energy $67B 收购 Dominion,明牌就是为 AI 数据中心建发电与输电。
  • 趋势判断:AI 进入「电力 + 长期合同」时代;估值与电力供给已经成为前沿模型成本曲线的真正瓶颈,而不是 GPU 单价。
  • 启发:side project 不需要追前沿模型,但要追「下游」——能用 frontier model 做出真实业务价值的垂直工程师,在未来 12 个月会被市场重新定价。
D2. Microsoft AI Diffusion 报告:AI 使用率 16.3% → 17.8%(Q1)
  • 动态:Microsoft 5/7 报告全球 AI adoption 在 Q1 +1.5pp 至 17.8% 工作年龄人口;agentic AI 取代 chatbot wrapper 趋势固化。
  • 趋势判断:「通用 chatbot wrapper」死局;「垂直 + 可证明业务结果 + 信任」是新三件套。
  • 启发:攀岩 app 走垂直、可量化的「动作改进建议命中率」指标,比泛泛做「AI fitness app」更稀缺。
D3. Google AI Search 全面改造 + information agents
  • 动态:Google 宣布 search bar 「25 年来最大重构」,AI 取代传统蓝链;推出 information agents(房源、行情等场景定时跟踪)。
  • 趋势判断:「搜索」从一次性 query 变成「持续订阅 + 主动 push」;下游 SEO/广告体系将重新分配。
  • 启发:portfolio 可以构思「攀岩训练 information agent」:用户给目标 + 关注岩馆 → agent 周报追踪状态变化。
D4. Promptfoo 被 OpenAI 收购(3/9)+ 承诺 MIT vendor-neutral
  • 动态:Promptfoo $86M 估值被 OpenAI 收购,承诺保持 MIT 开源 + vendor-neutral。
  • 趋势判断:eval 工具进入「被收编但保持开源」阶段;意味着 eval 工程能力可能被纳入大厂订阅产品。
  • 启发:眼下抓 eval 工程是稀缺技能;6 ~ 12 个月窗口期内是简历的明显加分项。

E. 学习价值 / 求职价值

E1. Berkeley「agent harness > model」研究 + DeepEval Decision Graph
  • 内容:benchmark 可被 gaming;私测 eval + harness-aware 评估是新的工程纪律。
  • 适合我怎么用:精读 + 复现——是「为什么我建私测 eval」的最强引用;面试用一句话讲清楚就能区分自己与「只会跑 benchmark」的候选人。
  • 推荐动作:搭 climbing-eval(10–20 任务、5 类评分维度);DeepEval Decision Graph 跑一遍。
E2. NVlabs/VideoITG 论文 + 代码(CVPR 2026 Highlight)
  • 内容:Instructed Temporal Grounding —— 用 VLM 选关键帧,提升下游视频理解。
  • 适合我怎么用:精读 + 复现——这是「攀岩 app 把视频压成关键帧给 VLM」的现成工程模板。
  • 推荐动作:周内跑一遍 demo,对比「naive uniform sampling vs VideoITG selection」在自己手头攀岩视频上的差异,写 portfolio blog。
E3. Hold Usage Detection in Sport Climbing dataset(arXiv 2505.12854)
  • 内容:攀岩 hold-level 使用标注。
  • 适合我怎么用:精读 + 直接接入项目——与 ClimbingCap 形成 v0.3 双轨数据计划。
  • 推荐动作:把 hold sequence 加进 climbing-eval 的 5 类任务之一(「输入视频 → 输出 hold sequence + 评论」)。
E4. vLLM Production Deployment Guide(多家 2026 版)
  • 内容:MRV2 + FP8 + tensor parallel + Docker H100 部署指南,2026 版本已成新基线。
  • 适合我怎么用:收藏 + 周末上手——攀岩 app v0.3 想做「自托管 cost 对比实验」时直接照搬。
  • 推荐动作:选一份指南跟到底,记录单 token 实际成本。
E5. Anthropic 6/15 Agent SDK 信用池(再次提醒,6/15 已不到 3 周)
  • 内容:6/15 起 Claude Agent SDK / claude -p / GitHub Actions 全部走独立 $200 信用池、list-price 计费。
  • 适合我怎么用:面试硬素材——cost-aware router 项目本月必须有 v0.1。
  • 推荐动作:本周内交付最简 router(Haiku/Flash → Sonnet → Opus 三档),记录单 task cost;写进 portfolio。

三、今日高分 GitHub Repo

今天剔除昨日已点评过的 mattpocock/skills、anthropics/skills、DeepSeek V4、ultralytics、VideoPose3D、VIBE、NVIDIA/Cosmos、n8n,聚焦新进入榜单 + 与攀岩 app 直接相关。
1. NVlabs/VideoITG
  • 方向标签:video / multimodal / temporal grounding / CVPR 2026 Highlight
  • 这项目是干什么的:Instructed Temporal Grounding,让 VLM 在长视频中选关键帧,提升下游视频理解任务表现。
  • 为什么今天值得关注:CVPR 2026 Highlight,社区讨论度上升;NVIDIA 出品,质量有保证。
  • 与我的相关性:极高——攀岩 app「上传视频 → 找关键动作帧」的核心模块直接对应。
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:是
  • 一句话判断:「攀岩 app 的『frame selector』直接搬。」
2. bytedance/vidi(Vidi 2.5 新版)
  • 方向标签:video / multimodal / VUE (understanding + editing)
  • 这项目是干什么的:覆盖视频理解 + 编辑的多模态大模型族;Vidi 2.5 + VUE_PLOT benchmark + 9B 权重 + 微调代码全开源。
  • 为什么今天值得关注:新版周末刚 release;字节产研真投入。
  • 与我的相关性:中-高——v0.4 / 1.0 加「高光剪辑」时必看。
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:周末跑一段攀岩视频做描述生成对比
  • 一句话判断:「中国家学派的开源 VUE 第一梯队。」
3. AIDC-AI/Pixelle-Video
  • 方向标签:app / video generation / 自动化
  • 这项目是干什么的:「输入主题 → 全自动生成完整短视频」(脚本 + 视觉 + 配音 + BGM + 合成),9.2k stars。
  • 为什么今天值得关注:连续两周登 trending;TikTok / 短视频赛道有人在尝试用它替代视频团队。
  • 与我的相关性:——攀岩 app 未来生成「训练动作 demo 视频」时可参考其 pipeline。
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:周末单独花 1 小时跑 demo,看效果与稳定性
  • 一句话判断:「热度高,文档需要验证;先跑 demo 再投入。」
4. pi-mono(agent toolkit + unified LLM API)
  • 方向标签:agent / dev tools / unified LLM API
  • 这项目是干什么的:coding agent CLI + 统一封装 Anthropic/OpenAI/Google/Groq 的 LLM API + TUI/Web UI + Slack bot + vLLM pods,8.1k stars。
  • 为什么今天值得关注:「统一 LLM API」是 cost-aware router 的基础设施;与 6/15 信用池变化高度协同。
  • 与我的相关性:——直接用作 climbing app 的 LLM 抽象层,省自写 router。
  • 上手成本:低-中
  • 是否建议收藏:是
  • 是否建议复现:建议拿其 unified API 在本地跑一遍 Haiku/Flash/Sonnet 切换
  • 一句话判断:「2026 个人 agent 的 lodash。」
5. vllm-project/vllm(0.20.2 / 0.21.0)
  • 方向标签:inference / serving / infra
  • 这项目是干什么的:高吞吐 / 内存友好的开源 LLM 推理与 serving 引擎。
  • 为什么今天值得关注:5/15 0.20.2 + MRV2 / FP8 / continuous batching 全默认;自托管成本结构性下移。
  • 与我的相关性:——v0.3 之后做「自托管 cost 对比实验」必跑。
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:是
  • 一句话判断:「自托管推理事实标准,必须熟一档 flag。」
6. confident-ai/deepeval
  • 方向标签:eval / pytest / decision graph
  • 这项目是干什么的:pytest-style 的 LLM/agent eval 框架;v4.0.3(5/21)加 Decision Graph Logic。
  • 为什么今天值得关注:与 Berkeley「benchmark 可 gaming」研究形成完美对照——下一步就是建私测 eval。
  • 与我的相关性:极高——climbing-eval 的执行框架。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:是(本周交付 climbing-eval v0.1)
  • 一句话判断:「想被招就别再吹 SWE-bench,先把私测 eval 写出来。」
7. LJungang/Awesome-Video-Reasoning-Landscape
  • 方向标签:survey / video reasoning / landscape
  • 这项目是干什么的:video reasoning 任务、范式、benchmark 的开源 survey。
  • 为什么今天值得关注:上行 trending;攀岩 app 的「动作理解 + 评论」属于 video reasoning 子集。
  • 与我的相关性:中-高——一周内是「补课」最高效入口。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:否(是 survey)
  • 一句话判断:「省时间的最强 survey 入口。」
8. anthropics/skills(持续上升)
  • 方向标签:agent / Claude Code skills 官方标准
  • 这项目是干什么的:Anthropic 官方 reference skills(docx / pptx / pdf / xlsx / skill-creator 等)。
  • 为什么今天值得关注:73k+ stars 持续涨;skill 已正式开放标准;与 Prismatic Skills for Claude Code 等社区项目对齐。
  • 与我的相关性:——climbing-coach skill 的目录结构与 README 模板。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:写 climbing-coach skill
  • 一句话判断:「agent 时代的 npm。」
9. ⚠️ 警告:Pixelle-Video / OpenHuman / pi-mono font 类热度需谨慎
  • 现状:本周 trending 上「短视频自动化」「pi-mono 等同名字体项目」「OpenHuman 等情感拟人 demo」热度依旧高,但要分清「真工程」与「漂亮 demo」。
  • 建议:热度高但价值需要验证——先看 issues 活跃度、release notes、文档完整度,再决定投入时间。

四、今日最值得我看的 3 篇 / 3 个链接

  1. NVlabs/VideoITG(CVPR 2026 Highlight, repo + paper) —— 攀岩 app 「frame selector」的现成工程模板;周内跑通就直接转化成 portfolio。link
  1. Berkeley「agent harness > model」+ DeepEval Decision Graph —— 「为什么我自己建私测 eval」的最强引用 + 立刻能动手的框架。Eval survey · DeepEval
  1. Hold Usage Detection in Sport Climbing dataset(arXiv 2505.12854) —— 攀岩动作分析里最稀缺的「hold-level 标注」数据集;与 ClimbingCap 互补,本周末就能加进 v0.3 数据计划。link

五、今日行动清单(最重要)

1) 收藏但不必立刻看
  • Anthropic $30B / 教皇通谕 / OpenAI S-1(行业叙事素材):Crescendo News
  • Mistral 3 / Medium 3.5(中型 dense 开源 frontier,先记 cost-aware router 候选):link
  • Pixelle-Video(短视频自动化参考,周末跑 demo 即可):link
2) 今天值得精读
  • NVlabs/VideoITG paper + repo:link
3) 今天值得复现 / 试用
  • 用 VideoITG demo 跑一段自己拍的攀岩视频,对比 uniform sampling 在 VLM critique 上的差异(小实验,1 个晚上能出图)。
  • 用 DeepEval Decision Graph 写 climbing-eval/ 的第一个测试用例(先 1 个任务、3 个评分维度即可)。
  • pi-mono 试一下 unified LLM API,跑一段「相同 prompt 在 Haiku/Flash/Sonnet/Opus 上的成本对比」。
4) 值得纳入项目 roadmap
  • 攀岩 app v0.3:把 VideoITG(frame selector)+ Hold Usage Detection(hold sequence)+ ClimbingCap(3D pose)三件套并入 pipeline;DeepEval 跑 climbing-eval v0.1。
  • portfolio 子项目:cost-aware router v0.1(Haiku/Flash → Sonnet 4.6 → Opus 4.7 三档),6/15 之前必须能跑,附 token cost log。
  • portfolio 子项目climbing-coach skill(SKILL.md + scripts + 1 个 demo notebook),按 anthropics/skills 目录结构。
  • portfolio 子项目:vLLM 0.20.2 自托管 cost 对比实验(同一任务 × 三档 model × 云 vs 自托管),blog 一篇。
5) 面试可以拿来讲的 1–2 个点
  • 「我看完 Berkeley 关于 agent harness 影响 benchmark 30~50pp 的研究后,就放弃用 SWE-bench Verified 做 portfolio 主打,转而用 DeepEval Decision Graph 给攀岩 app 建了 10–20 个真任务的私测 eval,跑三家 coding agent 对比,结论是 X。」
  • 「攀岩动作分析的核心瓶颈不是 pose 单点,而是『关键帧选取 + hold 使用序列 + 3D pose』三层信息的对齐。我用 CVPR 2026 Highlight 的 NVlabs/VideoITG 做 frame selector,arXiv 2505.12854 的 hold-usage 数据集 + ClimbingCap 的 3D 数据集做评测,整条 pipeline 输出动作经济性 critique。」

六、备注

  • 5/26 是周二,过去 48 小时(5/24–5/25 周末)真正的「重磅」集中在 Anthropic $30B + 教皇通谕这条「行业叙事级」消息;技术一手发布相对克制,所以本日报把重心放在「工程纪律落地」(vLLM 0.20.2 + Phoenix/DeepEval + cost-aware router + climbing-eval v0.1)。
  • 攀岩 app 方向:本周可以把 VideoITG 与 Hold Usage Detection 数据集合进 v0.3 数据计划,与已经收口的 ClimbingCap + FineBench/GLIMPSE 形成「输入 → 关键帧 → pose + hold sequence → critique」完整通路。
  • 警惕:trending 榜上「短视频自动化」「拟人 demo」类项目仍然高频出现,热度高但价值需要验证;同名 pi-mono 有两种含义(agent toolkit vs 字体),引用时分清。
  • Subquadratic / SubQ 12M ctx 仍未独立 benchmark,按昨日策略「先收藏不投入」。
  • 6/15 Anthropic Agent SDK 信用池变更倒计时 20 天,cost-aware router v0.1 必须在 6/10 前跑通。

由 Claude 在 Cowork 模式下自动生成(autonomous scheduled task)。如某条信息真实性需进一步核对,请以官方原始链接为准。
AI 日报 | 2026-04-01AI 日报 | 2026-05-25
Loading...