AI 日报 | 2026-06-01 | Tony‘s BLOG

type

Post

status

Published

date

Jun 1, 2026

slug

ai-daily-2026-06-01

summary

Claude Opus 4.8（5/28）+ Dynamic Workflows 把 "1000 subagent 并行" 写进 Claude Code；Apple WWDC 6/8 on-device AI + Gemini 蒸馏意味着移动端 AI 范式洗牌；GPT-5.5 Instant 默认化、Gemini 3.5 Pro 6 月内 GA，三家旗舰首次同月换代；YOLO26-pose NMS-free + RTMPose / Sapiens 在移动端攀岩 app 的选型直接刷新；6/15 Anthropic 信用池倒计时 14 天，cost-aware router 不能再拖。

一、今日最重要的 5 条

1. Claude Opus 4.8（5/28）+ Dynamic Workflows —— 单 session 内 1000 subagent 并行，agent 工程范式刷新

发生了什么：Anthropic 5/28 发布 Opus 4.8：SWE-Bench Pro 69.2%（+4.9pp）、Online-Mind2Web 84%、Legal Agent Benchmark 首次破 10% all-pass、knowledge work 1890 Elo，价格不变；同时上线 Dynamic Workflows research preview：Claude 自己写 JS 脚本 orchestrate 子 agent，single run 上限 16 并发 / 1000 总数。

为什么重要：这是 agent 从 "sequential tool-call" 走向 "自写编排脚本 + 大规模并行" 的工程范式转折点；Opus 4.7 → 4.8 只用 41 天，节奏比 GPT-5.5 → 5.6 还紧。

对我有什么关系：cost-aware router 设计要重做——以前是 "haiku/flash → sonnet → opus" 三档，现在 Opus 4.8 的 fast mode 比上代便宜 3×，意味着 "中档 → opus fast" 直接可能更省；climbing-eval 也要加入 "dynamic workflow 编排能力" 一个维度。

时间：2026-05-28

链接：Anthropic Opus 4.8 · TechCrunch Dynamic Workflows · Artificial Analysis

2. Apple WWDC 2026（6/8）—— on-device AI + Gemini 蒸馏，移动端范式洗牌前夜

发生了什么：WWDC 2026 6/8 10am PT 开幕；Apple 计划把 "on-device AI" 作为核心叙事，押 15 年自研 silicon；与 Google 协议下，Apple 会用 Gemini 大模型蒸馏出可本地运行的小模型；Siri 内部代号 "Campos" 完整重做成 advanced AI chatbot。

为什么重要：iPhone/Mac 端如果跑得起 Gemini 蒸馏小模型 + Foundation Models API 升级，移动 AI app 的 "是否要走云推理" 的成本和延迟前提都会变；这是攀岩 app v1.0 之前必须看的发布会。

对我有什么关系：直接影响 climbing app 部署架构——如果 WWDC 公布的 on-device VLM 能跑 pose+video 推理，可以从 "上传到云端 VLM critique" 改成 "本地 pose + 云端 critique"，省成本、隐私、延迟三件套全拿。

时间：发布会 2026-06-08（一周内）

链接：AppleInsider · MacRumors · Newsweek WWDC overview

3. 三家旗舰首次同月换代：GPT-5.5 Instant 默认化（5/5）+ Gemini 3.5 Flash GA（5/19）+ Claude Opus 4.8（5/28）

发生了什么：5 月单月 OpenAI、Google、Anthropic 各自换了一次旗舰；GPT-5.5 Instant 成 ChatGPT 默认；Gemini 3.5 Flash 280+ tok/s 速度档 GA；Opus 4.8 占据 Artificial Analysis Intelligence Index 第一（61.4，+1.2 比 GPT-5.5 xhigh）。Gemini 3.5 Pro 由 Pichai 在 I/O 上 "give us until next month"，6 月内 GA。

为什么重要：自 GPT-4 时代以来第一次出现 "三家旗舰在 24 天内全部换"；意味着 "模型选型" 不再是季度问题，是 monthly 问题；任何写死 model name 的代码 6 个月内都要重写。

对我有什么关系：portfolio 里写 "我做了 cost-aware router" 现在比 "我用了 GPT-5" 多 3 个数量级的可信度；本月内交付 v0.1 就是面试稀缺技能。

时间：2026-05-05 / 05-19 / 05-28

链接：OpenAI GPT-5.5 · Gemini 3.5 announcement · Claude Opus 4.8

4. YOLO26-pose 移动端 NMS-free —— TFLite/CoreML 导出 + 攀岩 app 移动端选型刷新

发生了什么：YOLO26 2026 年初发布，把 NMS 从架构里彻底去掉，YOLO26-N 在 CPU 上 38.9ms 推理 / 1.7ms GPU，比 YOLO11-N CPU 快 43%，原生支持 TFLite + CoreML 导出；同期 RTMPose-s 在 Snapdragon 865 上 72.2% AP / 70+ FPS；Sapiens / ViTPose++ 留给 server-side accuracy 档。

为什么重要：移动端 pose estimator 选型 2026 版基本固定为 "YOLO26-pose（detection + keypoint 一体）+ RTMPose-s（高精度 fallback）"，Sapiens 留给云端 ground truth；MediaPipe 仍是 "最快但精度天花板低" 的兜底。

对我有什么关系：直接确定攀岩 app 的端上 pose 选型——YOLO26-pose（默认实时档）+ RTMPose-s（高精度档）+ Sapiens（云端 ground truth 给 critique 引用）三档组合；可以本周末就把这三个 backbone 跑一遍延迟/精度对比写 portfolio。

链接：YOLO26 Roboflow · LearnOpenCV YOLO26 · RTMPose paper

5. 6/15 Anthropic Agent SDK 独立信用池倒计时 14 天 —— 本周必须落地 cost-aware router v0.1

发生了什么：6/15 起 Claude Agent SDK / claude -p / GitHub Actions 全部走独立 $200 信用池、list-price 计费；同期 Microsoft 365 add-ins（Excel/PowerPoint/Word）Claude 集成 GA、Outlook 公测；20+ 新 legal MCP connectors + 12 practice-area plugins 开放。

为什么重要：信用池切换会让所有靠 "Claude Pro 套餐顺带跑 agent" 的 side project 突然多出真金白银的 cost；预先没建 cost-aware router 的项目会在 6/15 当晚被账单教育。

对我有什么关系：本周 deliverable：cost-aware router v0.1（Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档），加 token cost log；6/10 前必须跑通，6/15 前能切档；这是面试硬素材。

链接：Releasebot Anthropic · Anthropic Claude updates

二、按目标分类

A. 前沿模型 / 一手发布

A1. Claude Opus 4.8（5/28，旗舰换代）

事件：Anthropic 发布 Opus 4.8，价格不变、fast mode 便宜 3×、模型福利 (model welfare) 首次写进 release notes。

核心内容：SWE-Bench Pro 69.2% / Online-Mind2Web 84% / Legal Agent first-ever break 10% all-pass / 1890 Elo knowledge work / Artificial Analysis Index 第一。

为什么重要：与 Dynamic Workflows 配套上线，agent layer 与 model layer 同步进化，competitor 短期内无对应组合。

我需不需要点开：需要——重做 cost-aware router 的档位，把 Opus 4.8 fast mode 与 Sonnet 4.6 做 head-to-head cost/quality。

链接：Anthropic Opus 4.8 · Vellum benchmarks

A2. GPT-5.5 + GPT-5.5 Instant（4/23 + 5/5 默认化）

事件：GPT-5.5 4/23 上线；5/5 起 GPT-5.5 Instant 成 ChatGPT free tier 默认模型，取代 GPT-5.3。

核心内容：超大 agentic coding / computer use / knowledge work 提升；$2.25 / M input token；OpenAI "super app" 叙事固化。

为什么重要：是 GPT-5 → 5.5 的 incremental release，但 free tier 默认化意味着用户分发面真正发生变化。

我需不需要点开：已读——继续 cost-aware router 候选。

链接：OpenAI GPT-5.5 · TechCrunch GPT-5.5

A3. Gemini 3.5 Flash GA（5/19）+ Gemini 3.5 Pro 6 月内 GA

事件：5/19 I/O 2026 Gemini 3.5 Flash GA、AI Mode / Search / Gemini App 默认；3.5 Pro 由 Pichai 推迟到 6 月。

核心内容：Terminal-Bench 2.1 76.2% / GDPval-AA 1656 Elo / MCP Atlas 83.6%；速度 280+ tok/s；$0.25 / M input token Flash-Lite。

为什么重要：cheap-tier 候选池继续扩张；与 DeepSeek V4 Flash + Mistral Medium 3.5 形成 "中型 frontier 开源/便宜云端" 三角。

我需不需要点开：简读——cost-aware router 已计入。

链接：Gemini 3.5 blog · DataCamp Gemini 3.5 Flash vs GPT-5.5

A4. DeepSeek V4 Pro/Flash（4/24 已开源，复盘）+ Qwen 3.5（2/16）

事件：DeepSeek-V4-Pro 1.6T / 49B active MoE、V4-Flash 284B / 13B active、1M ctx、MIT；Qwen 3.5 397B MoE / Apache 2.0 / 256K ctx / 201 语言。

核心内容：开源 frontier 已不再是 "大致接近"——SWE-bench 已上 80% 档；推理价格 $0.30/MTok。

为什么重要：开源 + 中国实验室 + Huawei 算力闭环，使 "自托管 frontier" 在中国/国际两端都成为现实；6/15 后用作 Opus / GPT-5.5 的 cheap 替代必看。

我需不需要点开：需要——cost-aware router 的 "便宜档" 默认候选。

链接：DeepSeek V4 Pro HF · Fortune DeepSeek V4

B. AI 工程 / Agent / Coding workflow

B1. Dynamic Workflows for Claude Code（5/28，research preview）

内容：Claude 自写 JS orchestration script，单 run 最多 16 并发 / 1000 subagent 总数；Enterprise / Team / Max 可用。

可落地价值：把 "sequential agent" 范式直接升级到 "parallel agent"，复杂任务（重构、跨仓库迁移、批量验证）执行时间下降一个数量级。

对我的意义：本月动手——拿 climbing-eval 的 10 个任务做 dynamic workflow 编排实验，记录并行与串行的成本/质量差，写 portfolio blog；这是 6/15 之前最强的面试素材之一。

链接：MindStudio Dynamic Workflows guide · Sagnik Bhattacharya tutorial · MarkTechPost

B2. Phoenix v16 + DeepEval v4.0.3（5/21）+ RAGAS / TruLens / Future AGI（复盘）

内容：Phoenix v16 sandboxed Code Evaluators + LLM-jury composite；DeepEval Decision Graph Logic；OpenTelemetry-compatible tracing 成行业事实标准。

可落地价值："production-grade eval" 已经从 nice-to-have 升级到 gating——没 eval 的 agent 项目 6/15 后会变成账单杀手。

对我的意义：本周交付 climbing-eval v0.1（10–20 任务 × 5 类评分维度），用 DeepEval Decision Graph 跑三档 model，结论写 README。

链接：DeepEval · LLM Eval Frameworks 2026 ranked · Atlan RAGAS/TruLens/DeepEval

B3. Claude × Microsoft 365 Add-ins GA（Excel/PPT/Word）+ Outlook 公测

内容：Claude 在 Excel/PowerPoint/Word 的 add-ins 5/28 同步 GA；Outlook 进入 public beta（paid plans）；20+ legal MCP connectors + 12 practice-area plugins 开放。

可落地价值：Claude 不再只是 IDE 内 agent，office 工作流被纳入 Claude 触达面；MCP connector 生态扩张明显。

对我的意义：portfolio 里如果有 "我写过一个 Word/Excel Claude MCP connector / skill"，比写一个 "Web app 接 Claude" 在求职市场的差异化高一个量级。

链接：Anthropic news · 9to5Mac Opus 4.8

B4. agentic coding 工具 2026 landscape（Claude Code / Cursor 3 / Codex / Cline / Kilo / OpenCode）

内容：6 月生产团队主流配方："Cursor 3 daily IDE + Codex 后台 PR + Claude Code 复杂重构"；OpenCode 开源破 150k star、月活 ~6.5M；Roo Code 已 archive，Cline / Kilo 是开源 IDE-native 第一梯队；Cursor SDK 开放，支持 indie hacker 写 agent 插件。

可落地价值："AI coding 工具经验" 招聘需求 YoY +340%（2025 Jan → 2026 Jan）；多工具组合编排能力是新的稀缺。

对我的意义：把 "Cursor 3 + Claude Code + Codex 实战经验 + 私测 eval" 作为简历的工程纪律亮点，比单写 "我用 Cursor" 强很多。

链接：Requesty 2026 agentic coding tools · Cursor SDK launch · Artificial Analysis Coding Agents

C. 视觉 / 视频 / 运动人体分析

C1. YOLO26-pose（NMS-free, TFLite/CoreML 导出，2026 初发布）

内容：去除 NMS 后处理，YOLO26-N CPU 38.9ms / GPU 1.7ms，比 YOLO11-N CPU 快 43%；五档变体（N/S/M/L/X）；instance segmentation + pose + classification + OBB 一体化。

与攀岩 app 的相关性：极高——iOS/Android "实时关键点 + 检测一体" 默认选型；攀岩岩点检测 + 人体 keypoint 可以共用一张图前向。

可迁移到项目的点：YOLO26-pose-N 作为默认实时档；RTMPose-s 作为高精度 fallback；Sapiens 作为云端 ground truth。

优先级：高（本周可上手对比）

链接：YOLO26 Roboflow · LearnOpenCV YOLO26

C2. RTMPose / Sapiens / ViTPose++（2026 移动端 vs 云端选型对比）

内容：RTMPose-s 72.2% AP @70 FPS Snapdragon 865；Sapiens / ViTPose++ 走 server-side accuracy 路线；MediaPipe 仍是最快但 ceiling 低；2026 实测 RTMPose / Sapiens / ViTPose 在多场景下最 robust。

与攀岩 app 的相关性：高——"端上 pose 是否够用" 的现成对照实验。

可迁移到项目的点：写一份 "climbing-pose-bench" mini benchmark：端上 YOLO26-pose / RTMPose-s 与云端 Sapiens 在同一段视频上的精度差 vs 延迟差。

优先级：中-高

链接：RTMPose paper · Datature pose estimation 2026

C3. NVlabs/VideoITG（CVPR 2026 Highlight，frame selector）+ Vidi 2.5（VUE 多模态）

内容：VideoITG 用 VLM 的 visual-language alignment 选关键帧（VideoITG-40K：40K 视频 / 500K temporal grounding）；Vidi 2.5 + VUE_PLOT benchmark + Vidi1.5-9B 微调代码开源。

与攀岩 app 的相关性：极高——"上传视频 → 找出关键动作帧 → VLM critique" 的核心 frame selector / VUE 工程模板。

可迁移：VideoITG 直接接 VLM critique 前置层；Vidi 2.5 留给 v0.4 "训练高光剪辑" 模块。

优先级：高（v0.3 主线，本周复现）

链接：NVlabs/VideoITG · bytedance/vidi

C4. ClimbingCap + Hold Usage Detection（攀岩 app 数据三件套，本周末上手）

内容：ClimbingCap（arXiv 2503.21268，RGB+LiDAR+IMU + 3D ground truth）+ Hold Usage Detection in Sport Climbing（arXiv 2505.12854，hold-level 标注）+ FineBench / GLIMPSE（细粒度视频 QA + VLM 是否真在看视频评测）。

与攀岩 app 的相关性：极高——"3D pose + hold sequence + 是否真理解视频" 完整链条。

可迁移：3D pose baseline + hold sequence eval + VLM critique evaluation 子集。

优先级：高（v0.3 主线）

链接：ClimbingCap arXiv 2503.21268 · Hold Usage arXiv 2505.12854

C5. Video-MME-v2 / H2VU-Benchmark / V2P-Bench（2026 视频理解 benchmark 复盘）

内容：Video-MME-v2 接力 Video-MME 作为综合 MLLM video benchmark；H2VU 覆盖几秒到 1.5 小时；V2P-Bench 引入 visual prompt；Shortcut-aware Video-QA（55K MCQ）专测物理理解。

与攀岩 app 的相关性：中——climbing-eval 可以参考这些 benchmark 的任务设计，但要自己出题。

可迁移：Video-MME-v2 / H2VU 的任务分类做 climbing-eval v0.1 的 task taxonomy 蓝本。

优先级：中

链接：Video-MME-v2 arXiv · H2VU arXiv

D. 产品化 / 商业化 / 行业动态

D1. Apple WWDC 2026（6/8）—— on-device AI + Gemini 蒸馏 + Siri "Campos" 重做

动态：6/8 keynote，重心 on-device AI + 15 年自研 silicon 优势；与 Google 协议下用 Gemini 大模型蒸馏出 Apple silicon 跑得起的小模型；Siri 完整重做。

趋势判断：移动端 AI 进入 "云端 frontier + 端上蒸馏" 双层架构事实标准；"完全云端 AI 应用" 在 iOS/Mac 平台上会被 Apple-native 选型挤压。

启发：portfolio 项目 6 月写 "on-device VLM critique + 云端 fallback" 比写 "全云 GPT-5 app" 在求职市场上的差异化高。

链接：AppleInsider WWDC AI · MacRumors · Newsweek WWDC overview

D2. Anthropic $30B 大轮 + 教皇通谕（5/25）+ OpenAI S-1 + NextEra $67B 收购 Dominion

动态：Anthropic 估值 $900B+ / Q2 营收 $10.9B / YoY +130%；教皇 Leo XIV 与 Chris Olah 联合发首份 AI 通谕 Magnifica Humanitas；OpenAI 准备 S-1；NextEra $67B 收 Dominion 电力。

趋势判断：AI 进入 "系统性基础设施" 叙事——电力 + 长期合同 + 文明级伦理框架同时进入议程；GPU 单价已经不是瓶颈，电力供给与监管才是。

启发：portfolio 不必追前沿模型，但要追 "下游真实业务价值"；攀岩 app 的 "动作改进建议命中率" 是垂直、可量化的稀缺。

链接：Anthropic news · Time AI search reshape

D3. Pit AI（Stockholm）+ Project Prometheus（Bezos）+ 18.8B AI startup funding（2025 起）

动态：Voi 创始人新公司 Pit AI 走 "Pit Studio + Pit Cloud" 两条腿做 enterprise 自动化软件；Jeff Bezos 新公司 Project Prometheus；自 2025 起 AI startup 累计 $18.8B 融资。

趋势判断："vertical agent + enterprise 治理 / 审计" 是 2026 sticky 商业化方向；"AI 套壳" 估值彻底崩塌，研究人才 + 工程闭环才拿到 mega round。

启发：side project 选题应该聚焦 "垂直领域 × 可证明业务结果 × 数据 / 工程 moat"，攀岩 app 走的路线正确，但 narrative 要补 "我能证明动作改进建议命中率"。

链接：TechCrunch Pit AI · BuiltIn Project Prometheus · AI startup funding May 2026

D4. Google Search "25 年来最大重构" + information agents

动态：Google 把传统蓝链让位给 AI Mode；推出 information agents（房源、行情等场景定时跟踪）；分发面（distribution）从 query → 持续订阅。

趋势判断：搜索 → 持续订阅 + 主动 push；SEO/广告体系将被重新分配；agent 在 distribution layer 完成接入。

启发：可以构思 "攀岩训练 information agent"：用户给目标 + 关注岩馆/赛事 → agent 周报追踪动作改进 + 新路线。

链接：Google Search I/O 2026 · Time AI search

E. 学习价值 / 求职价值

E1. Dynamic Workflows for Claude Code 实操

内容：单 session 1000 subagent 并行编排；Claude 自写 JS 脚本，runtime 执行，最终 consolidated 结果。

适合我怎么用：精读 + 复现——攀岩 app climbing-eval 10 任务做并行编排实验。

推荐动作：本周末跑 dynamic workflow demo，记录 sequential vs parallel 在 climbing-eval 上的耗时/成本/质量差异，写 portfolio blog。

链接：Sagnik tutorial · Lushbinary

E2. Cost-aware router v0.1（Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档）—— 6/10 前必须跑通

内容：cost-aware router 三档切换 + token cost log + 私测 eval 上质量对照。

适合我怎么用：直接做——这是 6/15 信用池切换前最强的面试硬素材。

推荐动作：本周内交付最简 router；加入 DeepSeek V4 Flash + Mistral Medium 3.5 做 "开源便宜档" 候选。

链接：Releasebot Anthropic · DeepEval

E3. VideoITG + Hold Usage Detection + ClimbingCap 三件套

内容：frame selector + hold sequence + 3D pose ground truth 三层信息整合。

适合我怎么用：精读 + 直接接项目——攀岩 app v0.3 数据/pipeline 主线。

推荐动作：本周末跑 VideoITG demo + 把 Hold Usage Detection 数据集加进 climbing-eval 一个任务。

链接：NVlabs/VideoITG · Hold Usage arXiv 2505.12854 · ClimbingCap arXiv 2503.21268

E4. YOLO26-pose / RTMPose-s 移动端实测

内容：iOS/Android "YOLO26-pose-N（实时）+ RTMPose-s（高精度 fallback）+ Sapiens（云端 ground truth）" 三档对比。

适合我怎么用：复现 + 面试讲点——一段攀岩视频跑三档，写精度/延迟/功耗表格放 portfolio。

推荐动作：本周末做一次 mini benchmark；CoreML / TFLite 各导出一份；记录单帧延迟与功耗。

链接：YOLO26 Roboflow · LearnOpenCV YOLO26

E5. WWDC 6/8 关注清单 + Foundation Models / On-device VLM

内容：Apple WWDC 6/8 keynote 看 on-device AI 升级、Gemini 蒸馏小模型尺寸、Siri "Campos" 重做。

适合我怎么用：收藏 + 当周精读——影响攀岩 app 部署架构选型。

推荐动作：6/8 当天看 keynote + Platforms State of the Union，第二天写 "WWDC 2026 对 on-device AI app 的影响" portfolio note。

链接：WWDC26 dev page · AppleInsider WWDC AI

三、今日高分 GitHub Repo

已剔除昨日点评过的 mattpocock/skills、anthropics/skills（持续重要，仅复盘）；本日聚焦 "5/28 Opus 4.8 + Dynamic Workflows、移动端 pose、视频理解、eval、infra"。

1. NVlabs/VideoITG

GitHub 链接：github.com/NVlabs/VideoITG

方向标签：video / multimodal / temporal grounding / CVPR 2026 Highlight

这项目是干什么的：用 VLM 的 visual-language alignment 做 discriminative frame selection，提升下游 video understanding 任务。

为什么今天值得关注：CVPR 2026 Highlight；NVlabs 出品；与 Vidi 2.5 互补。

与我的相关性：极高——攀岩 app 的 "frame selector" 直接对应模块。

上手成本：中

是否建议收藏：是

是否建议复现：是（本周复现）

一句话判断："攀岩 app 的 frame selector 直接搬。"

2. anthropics/claude-code（Dynamic Workflows research preview）

GitHub 链接：github.com/anthropics/claude-code

方向标签：agent / coding / orchestration / parallel subagents

这项目是干什么的：Claude Code CLI 主仓；5/28 起接入 Dynamic Workflows，single run 16 并发 / 1000 subagent。

为什么今天值得关注：parallel subagent 范式是 agent 工程的新事实标准。

与我的相关性：极高——本月最重要的工程改造对象。

上手成本：低

是否建议收藏：是

是否建议复现：是（dynamic workflow demo + climbing-eval 并行编排）

一句话判断："agent 进入并行时代的入口。"

3. confident-ai/deepeval（v4.0.3 Decision Graph）

GitHub 链接：github.com/confident-ai/deepeval

方向标签：eval / pytest / decision graph

这项目是干什么的：pytest-style LLM/agent eval 框架；Decision Graph Logic 测多步路径而不是只测最终输出。

为什么今天值得关注：6/15 信用池切换前，eval 是 cost-aware router 的前提；DeepEval 是落地最快的选择。

与我的相关性：极高——climbing-eval 执行框架。

上手成本：低

是否建议收藏：是

是否建议复现：是（本周交付 climbing-eval v0.1）

一句话判断："想被招就别再吹 SWE-bench，先写私测 eval。"

4. ultralytics/ultralytics（YOLO26 / YOLO26-pose）

GitHub 链接：github.com/ultralytics/ultralytics

方向标签：vision / mobile / pose / detection / NMS-free

这项目是干什么的：YOLO 系列主仓，YOLO26 + YOLO26-pose 已合并；TFLite / CoreML 一键导出。

为什么今天值得关注：移动端 pose / detection 一体化新基线；与 RTMPose / Sapiens 形成 2026 三档组合。

与我的相关性：极高——攀岩 app 移动端实时档默认选型。

上手成本：低

是否建议收藏：是

是否建议复现：是（本周末做 climbing-pose-bench mini benchmark）

一句话判断："端上 pose 选型先定 YOLO26-pose 再说。"

5. vllm-project/vllm（0.20.2 / 0.21.0 + MRV2 + FP8）

GitHub 链接：github.com/vllm-project/vllm

方向标签：inference / serving / infra

这项目是干什么的：高吞吐 / 内存友好的开源 LLM 推理与 serving 引擎。

为什么今天值得关注：自托管 frontier 推理 cost 结构性下移；与 DeepSeek V4 / Mistral 3 配套首选。

与我的相关性：高——cost-aware router "开源便宜档" 的 self-host 实验。

上手成本：中

是否建议收藏：是

是否建议复现：是

一句话判断："自托管事实标准，先熟一档 flag。"

6. bytedance/vidi（Vidi 2.5 + VUE_PLOT + Vidi1.5-9B）

GitHub 链接：github.com/bytedance/vidi

方向标签：video / multimodal / VUE（understanding + editing）

这项目是干什么的：视频理解 + 编辑多模态模型族；权重 + 微调代码 + 评测 benchmark 全开源。

为什么今天值得关注：开源 VUE 第一梯队；中国家学派工程投入扎实。

与我的相关性：中-高——v0.4 "高光剪辑" 模块必看。

上手成本：中

是否建议收藏：是

是否建议复现：周末跑一段攀岩视频做描述生成对比

一句话判断："开源 VUE 第一梯队，但攀岩 app 优先级排 v0.4。"

7. anthropics/skills（持续上升 + skills 已成 agent 标准）

GitHub 链接：github.com/anthropics/skills

方向标签：agent / Claude Code skills 官方标准

这项目是干什么的：Anthropic 官方 reference skills（docx / pptx / pdf / xlsx / skill-creator 等）。

为什么今天值得关注：与 Microsoft 365 add-ins GA / 20+ legal MCP connectors 形成 agent integration 全景；skill 已成事实工程范式。

与我的相关性：高——climbing-coach skill 的目录结构 + README 模板照搬。

上手成本：低

是否建议收藏：是

是否建议复现：写 climbing-coach skill 公开 repo

一句话判断："agent 时代的 npm 模板。"

8. LJungang/Awesome-Video-Reasoning-Landscape

GitHub 链接：github.com/LJungang/Awesome-Video-Reasoning-Landscape

方向标签：survey / video reasoning / landscape

这项目是干什么的：video reasoning 任务、范式、benchmark 的开源 survey。

为什么今天值得关注：攀岩 app 的 "动作理解 + 评论" 属于 video reasoning 子集；省时间最强入口。

与我的相关性：中-高

上手成本：低

是否建议收藏：是

是否建议复现：否（是 survey）

一句话判断："补课最高效入口。"

9. ⚠️ 警告：Pixelle-Video / OpenClaw / OpenHuman 类项目热度需谨慎

现状：Pixelle-Video 短视频自动化仍 trending；OpenClaw 从 9k → 210k+ star 但仍偏 demo；OpenHuman 拟人 demo 热度高。

建议：热度高但价值需要验证——先看 issues 活跃度 + release notes + 文档完整度；不建议直接投入复现时间。

链接：Professor Glitch trending May 2026

四、今日最值得我看的 3 篇 / 3 个链接

Anthropic Opus 4.8 + Dynamic Workflows（5/28，官方） —— 模型 + agent 范式同步升级；是本周工程改造的引子。Opus 4.8 blog · Dynamic Workflows tutorial

NVlabs/VideoITG（CVPR 2026 Highlight） —— 攀岩 app "frame selector" 现成工程模板；周内复现 → 直接转 portfolio blog。VideoITG repo

YOLO26-pose / RTMPose-s 移动端选型对比 —— 端上 pose 三档组合（YOLO26-pose / RTMPose-s / Sapiens）的现成对照实验，本周末就能出表。YOLO26 Roboflow · RTMPose paper

五、今日行动清单（最重要）

1) 收藏但不必立刻看

Anthropic $30B / 教皇通谕 / OpenAI S-1（行业叙事素材）：Anthropic news

GPT-5.5 Instant / Gemini 3.5 Flash 复盘：GPT-5.5 · Gemini 3.5

Pit AI / Project Prometheus（行业 vertical 案例）：TechCrunch Pit AI

LJungang Video Reasoning survey（背景补课）：link

2) 今天值得精读

Opus 4.8 blog + Dynamic Workflows tutorial：Anthropic · Sagnik tutorial

VideoITG paper + repo：link

YOLO26 LearnOpenCV deep dive：link

WWDC 2026 on-device AI 准备：AppleInsider

3) 今天值得复现 / 试用

跑 Dynamic Workflows demo（climbing-eval 10 任务 sequential vs parallel）

跑 VideoITG demo（自己的攀岩视频 uniform sampling vs ITG selection）

跑 YOLO26-pose-N + RTMPose-s 在同一段攀岩视频上的延迟/精度对比，TFLite/CoreML 各导一份

写 climbing-eval v0.1 第一个 task（用 DeepEval Decision Graph）

4) 值得纳入项目 roadmap

攀岩 app v0.3：VideoITG（frame selector）+ Hold Usage Detection（hold sequence）+ ClimbingCap（3D pose）+ YOLO26-pose（移动端实时 pose）四件套合一；DeepEval 跑 climbing-eval v0.1。

portfolio 子项目：cost-aware router v0.1（Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档 + DeepSeek V4 Flash 开源便宜档）—— 6/10 前必须跑通。

portfolio 子项目：Dynamic Workflows parallel orchestration 在 climbing-eval 上的对比实验 + blog。

portfolio 子项目：climbing-coach skill（SKILL.md + scripts + 1 个 demo notebook）按 anthropics/skills 目录结构。

portfolio 子项目：YOLO26-pose / RTMPose-s / Sapiens 攀岩 mini benchmark + 移动端实测表。

WWDC 6/8 当周：写 "WWDC 2026 对 on-device AI app 的影响" portfolio note。

5) 面试可以拿来讲的 1–2 个点

"5/28 Opus 4.8 上线后我把攀岩 app 的 agent layer 从 sequential tool-call 改成 Dynamic Workflows 并行编排，climbing-eval 上 10 个任务的耗时从 X 降到 Y，结果质量按 DeepEval Decision Graph 评分 Z%；这是同一周 frontier 模型 + agent 范式同步升级的工程价值。"

"攀岩动作分析的核心瓶颈不是 pose 单点，而是『关键帧选取 + hold 使用序列 + 3D pose + 移动端实时性』四层信息的对齐。我用 CVPR 2026 Highlight 的 NVlabs/VideoITG 做 frame selector，arXiv 2505.12854 的 hold-usage 数据集 + ClimbingCap 3D 数据集做 ground truth，YOLO26-pose-N 在 iOS 上跑实时 pose，整条 pipeline 输出动作经济性 critique。"

六、备注

今天是 6/1 周一，过去 72 小时（5/28–5/31）真正的 "重磅" 集中在 Opus 4.8 + Dynamic Workflows（5/28） 这条 "模型 + agent 范式" 双升级；其次是 WWDC 2026 准备稿（5/28 多家媒体） 与 YOLO26-pose 移动端选型 这两条延伸。

攀岩 app 方向：本周可以把 YOLO26-pose（移动端实时）+ VideoITG（frame selector）+ Hold Usage Detection（hold sequence）+ ClimbingCap（3D pose） 四件套并入 v0.3 pipeline；移动端 mini benchmark 本周末就能出表。

6/15 Anthropic Agent SDK 信用池倒计时 14 天，cost-aware router v0.1 必须在 6/10 前跑通；这是 6 月最重要的工程交付节点。

警惕：trending 榜上 Pixelle-Video / OpenClaw / OpenHuman 类项目热度高但价值需要验证；先看 issues 活跃度 + release notes 再决定投入时间。

WWDC 6/8 是下周一，建议把当周日报留出空间给 Apple Foundation Models / on-device VLM 升级；如果 Apple 公布的 on-device 模型能跑 pose+video，攀岩 app 部署架构可以重写一遍。

由 Claude 在 Cowork 模式下自动生成（autonomous scheduled task）。如某条信息真实性需进一步核对，请以官方原始链接为准。