AI 日报 | 2026-06-01
type
Post
status
Published
date
Jun 1, 2026
slug
ai-daily-2026-06-01
summary
Claude Opus 4.8(5/28)+ Dynamic Workflows 把 "1000 subagent 并行" 写进 Claude Code;Apple WWDC 6/8 on-device AI + Gemini 蒸馏意味着移动端 AI 范式洗牌;GPT-5.5 Instant 默认化、Gemini 3.5 Pro 6 月内 GA,三家旗舰首次同月换代;YOLO26-pose NMS-free + RTMPose / Sapiens 在移动端攀岩 app 的选型直接刷新;6/15 Anthropic 信用池倒计时 14 天,cost-aware router 不能再拖。
tags
新闻
开发
category
技术分享
icon
📰
password
Comment
Buy-side 风格工程情报简报。今天的关键词:Claude Opus 4.8 + Dynamic Workflows(1000 subagent 并行)、Apple WWDC on-device AI、三家旗舰同月换代、YOLO26-pose 移动端、Anthropic 信用池倒计时 14 天。
一、今日最重要的 5 条
1. Claude Opus 4.8(5/28)+ Dynamic Workflows —— 单 session 内 1000 subagent 并行,agent 工程范式刷新
- 发生了什么:Anthropic 5/28 发布 Opus 4.8:SWE-Bench Pro 69.2%(+4.9pp)、Online-Mind2Web 84%、Legal Agent Benchmark 首次破 10% all-pass、knowledge work 1890 Elo,价格不变;同时上线 Dynamic Workflows research preview:Claude 自己写 JS 脚本 orchestrate 子 agent,single run 上限 16 并发 / 1000 总数。
- 为什么重要:这是 agent 从 "sequential tool-call" 走向 "自写编排脚本 + 大规模并行" 的工程范式转折点;Opus 4.7 → 4.8 只用 41 天,节奏比 GPT-5.5 → 5.6 还紧。
- 对我有什么关系:cost-aware router 设计要重做——以前是 "haiku/flash → sonnet → opus" 三档,现在 Opus 4.8 的 fast mode 比上代便宜 3×,意味着 "中档 → opus fast" 直接可能更省;climbing-eval 也要加入 "dynamic workflow 编排能力" 一个维度。
- 时间:2026-05-28
2. Apple WWDC 2026(6/8)—— on-device AI + Gemini 蒸馏,移动端范式洗牌前夜
- 发生了什么:WWDC 2026 6/8 10am PT 开幕;Apple 计划把 "on-device AI" 作为核心叙事,押 15 年自研 silicon;与 Google 协议下,Apple 会用 Gemini 大模型蒸馏出可本地运行的小模型;Siri 内部代号 "Campos" 完整重做成 advanced AI chatbot。
- 为什么重要:iPhone/Mac 端如果跑得起 Gemini 蒸馏小模型 + Foundation Models API 升级,移动 AI app 的 "是否要走云推理" 的成本和延迟前提都会变;这是攀岩 app v1.0 之前必须看的发布会。
- 对我有什么关系:直接影响 climbing app 部署架构——如果 WWDC 公布的 on-device VLM 能跑 pose+video 推理,可以从 "上传到云端 VLM critique" 改成 "本地 pose + 云端 critique",省成本、隐私、延迟三件套全拿。
- 时间:发布会 2026-06-08(一周内)
3. 三家旗舰首次同月换代:GPT-5.5 Instant 默认化(5/5)+ Gemini 3.5 Flash GA(5/19)+ Claude Opus 4.8(5/28)
- 发生了什么:5 月单月 OpenAI、Google、Anthropic 各自换了一次旗舰;GPT-5.5 Instant 成 ChatGPT 默认;Gemini 3.5 Flash 280+ tok/s 速度档 GA;Opus 4.8 占据 Artificial Analysis Intelligence Index 第一(61.4,+1.2 比 GPT-5.5 xhigh)。Gemini 3.5 Pro 由 Pichai 在 I/O 上 "give us until next month",6 月内 GA。
- 为什么重要:自 GPT-4 时代以来第一次出现 "三家旗舰在 24 天内全部换";意味着 "模型选型" 不再是季度问题,是 monthly 问题;任何写死 model name 的代码 6 个月内都要重写。
- 对我有什么关系:portfolio 里写 "我做了 cost-aware router" 现在比 "我用了 GPT-5" 多 3 个数量级的可信度;本月内交付 v0.1 就是面试稀缺技能。
- 时间:2026-05-05 / 05-19 / 05-28
4. YOLO26-pose 移动端 NMS-free —— TFLite/CoreML 导出 + 攀岩 app 移动端选型刷新
- 发生了什么:YOLO26 2026 年初发布,把 NMS 从架构里彻底去掉,YOLO26-N 在 CPU 上 38.9ms 推理 / 1.7ms GPU,比 YOLO11-N CPU 快 43%,原生支持 TFLite + CoreML 导出;同期 RTMPose-s 在 Snapdragon 865 上 72.2% AP / 70+ FPS;Sapiens / ViTPose++ 留给 server-side accuracy 档。
- 为什么重要:移动端 pose estimator 选型 2026 版基本固定为 "YOLO26-pose(detection + keypoint 一体)+ RTMPose-s(高精度 fallback)",Sapiens 留给云端 ground truth;MediaPipe 仍是 "最快但精度天花板低" 的兜底。
- 对我有什么关系:直接确定攀岩 app 的端上 pose 选型——YOLO26-pose(默认实时档)+ RTMPose-s(高精度档)+ Sapiens(云端 ground truth 给 critique 引用)三档组合;可以本周末就把这三个 backbone 跑一遍延迟/精度对比写 portfolio。
5. 6/15 Anthropic Agent SDK 独立信用池倒计时 14 天 —— 本周必须落地 cost-aware router v0.1
- 发生了什么:6/15 起 Claude Agent SDK /
claude -p/ GitHub Actions 全部走独立 $200 信用池、list-price 计费;同期 Microsoft 365 add-ins(Excel/PowerPoint/Word)Claude 集成 GA、Outlook 公测;20+ 新 legal MCP connectors + 12 practice-area plugins 开放。
- 为什么重要:信用池切换会让所有靠 "Claude Pro 套餐顺带跑 agent" 的 side project 突然多出真金白银的 cost;预先没建 cost-aware router 的项目会在 6/15 当晚被账单教育。
- 对我有什么关系:本周 deliverable:cost-aware router v0.1(Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档),加 token cost log;6/10 前必须跑通,6/15 前能切档;这是面试硬素材。
二、按目标分类
A. 前沿模型 / 一手发布
A1. Claude Opus 4.8(5/28,旗舰换代)
- 事件:Anthropic 发布 Opus 4.8,价格不变、fast mode 便宜 3×、模型福利 (model welfare) 首次写进 release notes。
- 核心内容:SWE-Bench Pro 69.2% / Online-Mind2Web 84% / Legal Agent first-ever break 10% all-pass / 1890 Elo knowledge work / Artificial Analysis Index 第一。
- 为什么重要:与 Dynamic Workflows 配套上线,agent layer 与 model layer 同步进化,competitor 短期内无对应组合。
- 我需不需要点开:需要——重做 cost-aware router 的档位,把 Opus 4.8 fast mode 与 Sonnet 4.6 做 head-to-head cost/quality。
A2. GPT-5.5 + GPT-5.5 Instant(4/23 + 5/5 默认化)
- 事件:GPT-5.5 4/23 上线;5/5 起 GPT-5.5 Instant 成 ChatGPT free tier 默认模型,取代 GPT-5.3。
- 核心内容:超大 agentic coding / computer use / knowledge work 提升;$2.25 / M input token;OpenAI "super app" 叙事固化。
- 为什么重要:是 GPT-5 → 5.5 的 incremental release,但 free tier 默认化意味着用户分发面真正发生变化。
- 我需不需要点开:已读——继续 cost-aware router 候选。
A3. Gemini 3.5 Flash GA(5/19)+ Gemini 3.5 Pro 6 月内 GA
- 事件:5/19 I/O 2026 Gemini 3.5 Flash GA、AI Mode / Search / Gemini App 默认;3.5 Pro 由 Pichai 推迟到 6 月。
- 核心内容:Terminal-Bench 2.1 76.2% / GDPval-AA 1656 Elo / MCP Atlas 83.6%;速度 280+ tok/s;$0.25 / M input token Flash-Lite。
- 为什么重要:cheap-tier 候选池继续扩张;与 DeepSeek V4 Flash + Mistral Medium 3.5 形成 "中型 frontier 开源/便宜云端" 三角。
- 我需不需要点开:简读——cost-aware router 已计入。
A4. DeepSeek V4 Pro/Flash(4/24 已开源,复盘)+ Qwen 3.5(2/16)
- 事件:DeepSeek-V4-Pro 1.6T / 49B active MoE、V4-Flash 284B / 13B active、1M ctx、MIT;Qwen 3.5 397B MoE / Apache 2.0 / 256K ctx / 201 语言。
- 核心内容:开源 frontier 已不再是 "大致接近"——SWE-bench 已上 80% 档;推理价格 $0.30/MTok。
- 为什么重要:开源 + 中国实验室 + Huawei 算力闭环,使 "自托管 frontier" 在中国/国际两端都成为现实;6/15 后用作 Opus / GPT-5.5 的 cheap 替代必看。
- 我需不需要点开:需要——cost-aware router 的 "便宜档" 默认候选。
B. AI 工程 / Agent / Coding workflow
B1. Dynamic Workflows for Claude Code(5/28,research preview)
- 内容:Claude 自写 JS orchestration script,单 run 最多 16 并发 / 1000 subagent 总数;Enterprise / Team / Max 可用。
- 可落地价值:把 "sequential agent" 范式直接升级到 "parallel agent",复杂任务(重构、跨仓库迁移、批量验证)执行时间下降一个数量级。
- 对我的意义:本月动手——拿 climbing-eval 的 10 个任务做 dynamic workflow 编排实验,记录并行与串行的成本/质量差,写 portfolio blog;这是 6/15 之前最强的面试素材之一。
B2. Phoenix v16 + DeepEval v4.0.3(5/21)+ RAGAS / TruLens / Future AGI(复盘)
- 内容:Phoenix v16 sandboxed Code Evaluators + LLM-jury composite;DeepEval Decision Graph Logic;OpenTelemetry-compatible tracing 成行业事实标准。
- 可落地价值:"production-grade eval" 已经从 nice-to-have 升级到 gating——没 eval 的 agent 项目 6/15 后会变成账单杀手。
- 对我的意义:本周交付 climbing-eval v0.1(10–20 任务 × 5 类评分维度),用 DeepEval Decision Graph 跑三档 model,结论写 README。
B3. Claude × Microsoft 365 Add-ins GA(Excel/PPT/Word)+ Outlook 公测
- 内容:Claude 在 Excel/PowerPoint/Word 的 add-ins 5/28 同步 GA;Outlook 进入 public beta(paid plans);20+ legal MCP connectors + 12 practice-area plugins 开放。
- 可落地价值:Claude 不再只是 IDE 内 agent,office 工作流被纳入 Claude 触达面;MCP connector 生态扩张明显。
- 对我的意义:portfolio 里如果有 "我写过一个 Word/Excel Claude MCP connector / skill",比写一个 "Web app 接 Claude" 在求职市场的差异化高一个量级。
B4. agentic coding 工具 2026 landscape(Claude Code / Cursor 3 / Codex / Cline / Kilo / OpenCode)
- 内容:6 月生产团队主流配方:"Cursor 3 daily IDE + Codex 后台 PR + Claude Code 复杂重构";OpenCode 开源破 150k star、月活 ~6.5M;Roo Code 已 archive,Cline / Kilo 是开源 IDE-native 第一梯队;Cursor SDK 开放,支持 indie hacker 写 agent 插件。
- 可落地价值:"AI coding 工具经验" 招聘需求 YoY +340%(2025 Jan → 2026 Jan);多工具组合编排能力是新的稀缺。
- 对我的意义:把 "Cursor 3 + Claude Code + Codex 实战经验 + 私测 eval" 作为简历的工程纪律亮点,比单写 "我用 Cursor" 强很多。
C. 视觉 / 视频 / 运动人体分析
C1. YOLO26-pose(NMS-free, TFLite/CoreML 导出,2026 初发布)
- 内容:去除 NMS 后处理,YOLO26-N CPU 38.9ms / GPU 1.7ms,比 YOLO11-N CPU 快 43%;五档变体(N/S/M/L/X);instance segmentation + pose + classification + OBB 一体化。
- 与攀岩 app 的相关性:极高——iOS/Android "实时关键点 + 检测一体" 默认选型;攀岩岩点检测 + 人体 keypoint 可以共用一张图前向。
- 可迁移到项目的点:YOLO26-pose-N 作为默认实时档;RTMPose-s 作为高精度 fallback;Sapiens 作为云端 ground truth。
- 优先级:高(本周可上手对比)
C2. RTMPose / Sapiens / ViTPose++(2026 移动端 vs 云端选型对比)
- 内容:RTMPose-s 72.2% AP @70 FPS Snapdragon 865;Sapiens / ViTPose++ 走 server-side accuracy 路线;MediaPipe 仍是最快但 ceiling 低;2026 实测 RTMPose / Sapiens / ViTPose 在多场景下最 robust。
- 与攀岩 app 的相关性:高——"端上 pose 是否够用" 的现成对照实验。
- 可迁移到项目的点:写一份 "climbing-pose-bench" mini benchmark:端上 YOLO26-pose / RTMPose-s 与云端 Sapiens 在同一段视频上的精度差 vs 延迟差。
- 优先级:中-高
C3. NVlabs/VideoITG(CVPR 2026 Highlight,frame selector)+ Vidi 2.5(VUE 多模态)
- 内容:VideoITG 用 VLM 的 visual-language alignment 选关键帧(VideoITG-40K:40K 视频 / 500K temporal grounding);Vidi 2.5 + VUE_PLOT benchmark + Vidi1.5-9B 微调代码开源。
- 与攀岩 app 的相关性:极高——"上传视频 → 找出关键动作帧 → VLM critique" 的核心 frame selector / VUE 工程模板。
- 可迁移:VideoITG 直接接 VLM critique 前置层;Vidi 2.5 留给 v0.4 "训练高光剪辑" 模块。
- 优先级:高(v0.3 主线,本周复现)
C4. ClimbingCap + Hold Usage Detection(攀岩 app 数据三件套,本周末上手)
- 内容:ClimbingCap(arXiv 2503.21268,RGB+LiDAR+IMU + 3D ground truth)+ Hold Usage Detection in Sport Climbing(arXiv 2505.12854,hold-level 标注)+ FineBench / GLIMPSE(细粒度视频 QA + VLM 是否真在看视频评测)。
- 与攀岩 app 的相关性:极高——"3D pose + hold sequence + 是否真理解视频" 完整链条。
- 可迁移:3D pose baseline + hold sequence eval + VLM critique evaluation 子集。
- 优先级:高(v0.3 主线)
C5. Video-MME-v2 / H2VU-Benchmark / V2P-Bench(2026 视频理解 benchmark 复盘)
- 内容:Video-MME-v2 接力 Video-MME 作为综合 MLLM video benchmark;H2VU 覆盖几秒到 1.5 小时;V2P-Bench 引入 visual prompt;Shortcut-aware Video-QA(55K MCQ)专测物理理解。
- 与攀岩 app 的相关性:中——climbing-eval 可以参考这些 benchmark 的任务设计,但要自己出题。
- 可迁移:Video-MME-v2 / H2VU 的任务分类做 climbing-eval v0.1 的 task taxonomy 蓝本。
- 优先级:中
D. 产品化 / 商业化 / 行业动态
D1. Apple WWDC 2026(6/8)—— on-device AI + Gemini 蒸馏 + Siri "Campos" 重做
- 动态:6/8 keynote,重心 on-device AI + 15 年自研 silicon 优势;与 Google 协议下用 Gemini 大模型蒸馏出 Apple silicon 跑得起的小模型;Siri 完整重做。
- 趋势判断:移动端 AI 进入 "云端 frontier + 端上蒸馏" 双层架构事实标准;"完全云端 AI 应用" 在 iOS/Mac 平台上会被 Apple-native 选型挤压。
- 启发:portfolio 项目 6 月写 "on-device VLM critique + 云端 fallback" 比写 "全云 GPT-5 app" 在求职市场上的差异化高。
D2. Anthropic $30B 大轮 + 教皇通谕(5/25)+ OpenAI S-1 + NextEra $67B 收购 Dominion
- 动态:Anthropic 估值 $900B+ / Q2 营收 $10.9B / YoY +130%;教皇 Leo XIV 与 Chris Olah 联合发首份 AI 通谕 Magnifica Humanitas;OpenAI 准备 S-1;NextEra $67B 收 Dominion 电力。
- 趋势判断:AI 进入 "系统性基础设施" 叙事——电力 + 长期合同 + 文明级伦理框架同时进入议程;GPU 单价已经不是瓶颈,电力供给与监管才是。
- 启发:portfolio 不必追前沿模型,但要追 "下游真实业务价值";攀岩 app 的 "动作改进建议命中率" 是垂直、可量化的稀缺。
D3. Pit AI(Stockholm)+ Project Prometheus(Bezos)+ 18.8B AI startup funding(2025 起)
- 动态:Voi 创始人新公司 Pit AI 走 "Pit Studio + Pit Cloud" 两条腿做 enterprise 自动化软件;Jeff Bezos 新公司 Project Prometheus;自 2025 起 AI startup 累计 $18.8B 融资。
- 趋势判断:"vertical agent + enterprise 治理 / 审计" 是 2026 sticky 商业化方向;"AI 套壳" 估值彻底崩塌,研究人才 + 工程闭环才拿到 mega round。
- 启发:side project 选题应该聚焦 "垂直领域 × 可证明业务结果 × 数据 / 工程 moat",攀岩 app 走的路线正确,但 narrative 要补 "我能证明动作改进建议命中率"。
D4. Google Search "25 年来最大重构" + information agents
- 动态:Google 把传统蓝链让位给 AI Mode;推出 information agents(房源、行情等场景定时跟踪);分发面(distribution)从 query → 持续订阅。
- 趋势判断:搜索 → 持续订阅 + 主动 push;SEO/广告体系将被重新分配;agent 在 distribution layer 完成接入。
- 启发:可以构思 "攀岩训练 information agent":用户给目标 + 关注岩馆/赛事 → agent 周报追踪动作改进 + 新路线。
E. 学习价值 / 求职价值
E1. Dynamic Workflows for Claude Code 实操
- 内容:单 session 1000 subagent 并行编排;Claude 自写 JS 脚本,runtime 执行,最终 consolidated 结果。
- 适合我怎么用:精读 + 复现——攀岩 app climbing-eval 10 任务做并行编排实验。
- 推荐动作:本周末跑 dynamic workflow demo,记录 sequential vs parallel 在 climbing-eval 上的耗时/成本/质量差异,写 portfolio blog。
E2. Cost-aware router v0.1(Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档)—— 6/10 前必须跑通
- 内容:cost-aware router 三档切换 + token cost log + 私测 eval 上质量对照。
- 适合我怎么用:直接做——这是 6/15 信用池切换前最强的面试硬素材。
- 推荐动作:本周内交付最简 router;加入 DeepSeek V4 Flash + Mistral Medium 3.5 做 "开源便宜档" 候选。
E3. VideoITG + Hold Usage Detection + ClimbingCap 三件套
- 内容:frame selector + hold sequence + 3D pose ground truth 三层信息整合。
- 适合我怎么用:精读 + 直接接项目——攀岩 app v0.3 数据/pipeline 主线。
- 推荐动作:本周末跑 VideoITG demo + 把 Hold Usage Detection 数据集加进 climbing-eval 一个任务。
E4. YOLO26-pose / RTMPose-s 移动端实测
- 内容:iOS/Android "YOLO26-pose-N(实时)+ RTMPose-s(高精度 fallback)+ Sapiens(云端 ground truth)" 三档对比。
- 适合我怎么用:复现 + 面试讲点——一段攀岩视频跑三档,写精度/延迟/功耗表格放 portfolio。
- 推荐动作:本周末做一次 mini benchmark;CoreML / TFLite 各导出一份;记录单帧延迟与功耗。
E5. WWDC 6/8 关注清单 + Foundation Models / On-device VLM
- 内容:Apple WWDC 6/8 keynote 看 on-device AI 升级、Gemini 蒸馏小模型尺寸、Siri "Campos" 重做。
- 适合我怎么用:收藏 + 当周精读——影响攀岩 app 部署架构选型。
- 推荐动作:6/8 当天看 keynote + Platforms State of the Union,第二天写 "WWDC 2026 对 on-device AI app 的影响" portfolio note。
三、今日高分 GitHub Repo
已剔除昨日点评过的 mattpocock/skills、anthropics/skills(持续重要,仅复盘);本日聚焦 "5/28 Opus 4.8 + Dynamic Workflows、移动端 pose、视频理解、eval、infra"。
1. NVlabs/VideoITG
- GitHub 链接:github.com/NVlabs/VideoITG
- 方向标签:video / multimodal / temporal grounding / CVPR 2026 Highlight
- 这项目是干什么的:用 VLM 的 visual-language alignment 做 discriminative frame selection,提升下游 video understanding 任务。
- 为什么今天值得关注:CVPR 2026 Highlight;NVlabs 出品;与 Vidi 2.5 互补。
- 与我的相关性:极高——攀岩 app 的 "frame selector" 直接对应模块。
- 上手成本:中
- 是否建议收藏:是
- 是否建议复现:是(本周复现)
- 一句话判断:"攀岩 app 的 frame selector 直接搬。"
2. anthropics/claude-code(Dynamic Workflows research preview)
- GitHub 链接:github.com/anthropics/claude-code
- 方向标签:agent / coding / orchestration / parallel subagents
- 这项目是干什么的:Claude Code CLI 主仓;5/28 起接入 Dynamic Workflows,single run 16 并发 / 1000 subagent。
- 为什么今天值得关注:parallel subagent 范式是 agent 工程的新事实标准。
- 与我的相关性:极高——本月最重要的工程改造对象。
- 上手成本:低
- 是否建议收藏:是
- 是否建议复现:是(dynamic workflow demo + climbing-eval 并行编排)
- 一句话判断:"agent 进入并行时代的入口。"
3. confident-ai/deepeval(v4.0.3 Decision Graph)
- GitHub 链接:github.com/confident-ai/deepeval
- 方向标签:eval / pytest / decision graph
- 这项目是干什么的:pytest-style LLM/agent eval 框架;Decision Graph Logic 测多步路径而不是只测最终输出。
- 为什么今天值得关注:6/15 信用池切换前,eval 是 cost-aware router 的前提;DeepEval 是落地最快的选择。
- 与我的相关性:极高——climbing-eval 执行框架。
- 上手成本:低
- 是否建议收藏:是
- 是否建议复现:是(本周交付 climbing-eval v0.1)
- 一句话判断:"想被招就别再吹 SWE-bench,先写私测 eval。"
4. ultralytics/ultralytics(YOLO26 / YOLO26-pose)
- GitHub 链接:github.com/ultralytics/ultralytics
- 方向标签:vision / mobile / pose / detection / NMS-free
- 这项目是干什么的:YOLO 系列主仓,YOLO26 + YOLO26-pose 已合并;TFLite / CoreML 一键导出。
- 为什么今天值得关注:移动端 pose / detection 一体化新基线;与 RTMPose / Sapiens 形成 2026 三档组合。
- 与我的相关性:极高——攀岩 app 移动端实时档默认选型。
- 上手成本:低
- 是否建议收藏:是
- 是否建议复现:是(本周末做 climbing-pose-bench mini benchmark)
- 一句话判断:"端上 pose 选型先定 YOLO26-pose 再说。"
5. vllm-project/vllm(0.20.2 / 0.21.0 + MRV2 + FP8)
- GitHub 链接:github.com/vllm-project/vllm
- 方向标签:inference / serving / infra
- 这项目是干什么的:高吞吐 / 内存友好的开源 LLM 推理与 serving 引擎。
- 为什么今天值得关注:自托管 frontier 推理 cost 结构性下移;与 DeepSeek V4 / Mistral 3 配套首选。
- 与我的相关性:高——cost-aware router "开源便宜档" 的 self-host 实验。
- 上手成本:中
- 是否建议收藏:是
- 是否建议复现:是
- 一句话判断:"自托管事实标准,先熟一档 flag。"
6. bytedance/vidi(Vidi 2.5 + VUE_PLOT + Vidi1.5-9B)
- GitHub 链接:github.com/bytedance/vidi
- 方向标签:video / multimodal / VUE(understanding + editing)
- 这项目是干什么的:视频理解 + 编辑多模态模型族;权重 + 微调代码 + 评测 benchmark 全开源。
- 为什么今天值得关注:开源 VUE 第一梯队;中国家学派工程投入扎实。
- 与我的相关性:中-高——v0.4 "高光剪辑" 模块必看。
- 上手成本:中
- 是否建议收藏:是
- 是否建议复现:周末跑一段攀岩视频做描述生成对比
- 一句话判断:"开源 VUE 第一梯队,但攀岩 app 优先级排 v0.4。"
7. anthropics/skills(持续上升 + skills 已成 agent 标准)
- GitHub 链接:github.com/anthropics/skills
- 方向标签:agent / Claude Code skills 官方标准
- 这项目是干什么的:Anthropic 官方 reference skills(docx / pptx / pdf / xlsx / skill-creator 等)。
- 为什么今天值得关注:与 Microsoft 365 add-ins GA / 20+ legal MCP connectors 形成 agent integration 全景;skill 已成事实工程范式。
- 与我的相关性:高——
climbing-coachskill 的目录结构 + README 模板照搬。
- 上手成本:低
- 是否建议收藏:是
- 是否建议复现:写
climbing-coachskill 公开 repo
- 一句话判断:"agent 时代的 npm 模板。"
8. LJungang/Awesome-Video-Reasoning-Landscape
- 方向标签:survey / video reasoning / landscape
- 这项目是干什么的:video reasoning 任务、范式、benchmark 的开源 survey。
- 为什么今天值得关注:攀岩 app 的 "动作理解 + 评论" 属于 video reasoning 子集;省时间最强入口。
- 与我的相关性:中-高
- 上手成本:低
- 是否建议收藏:是
- 是否建议复现:否(是 survey)
- 一句话判断:"补课最高效入口。"
9. ⚠️ 警告:Pixelle-Video / OpenClaw / OpenHuman 类项目热度需谨慎
- 现状:Pixelle-Video 短视频自动化仍 trending;OpenClaw 从 9k → 210k+ star 但仍偏 demo;OpenHuman 拟人 demo 热度高。
- 建议:热度高但价值需要验证——先看 issues 活跃度 + release notes + 文档完整度;不建议直接投入复现时间。
四、今日最值得我看的 3 篇 / 3 个链接
- Anthropic Opus 4.8 + Dynamic Workflows(5/28,官方) —— 模型 + agent 范式同步升级;是本周工程改造的引子。Opus 4.8 blog · Dynamic Workflows tutorial
- NVlabs/VideoITG(CVPR 2026 Highlight) —— 攀岩 app "frame selector" 现成工程模板;周内复现 → 直接转 portfolio blog。VideoITG repo
- YOLO26-pose / RTMPose-s 移动端选型对比 —— 端上 pose 三档组合(YOLO26-pose / RTMPose-s / Sapiens)的现成对照实验,本周末就能出表。YOLO26 Roboflow · RTMPose paper
五、今日行动清单(最重要)
1) 收藏但不必立刻看
- Anthropic $30B / 教皇通谕 / OpenAI S-1(行业叙事素材):Anthropic news
- GPT-5.5 Instant / Gemini 3.5 Flash 复盘:GPT-5.5 · Gemini 3.5
- Pit AI / Project Prometheus(行业 vertical 案例):TechCrunch Pit AI
- LJungang Video Reasoning survey(背景补课):link
2) 今天值得精读
- Opus 4.8 blog + Dynamic Workflows tutorial:Anthropic · Sagnik tutorial
- VideoITG paper + repo:link
- YOLO26 LearnOpenCV deep dive:link
- WWDC 2026 on-device AI 准备:AppleInsider
3) 今天值得复现 / 试用
- 跑 Dynamic Workflows demo(climbing-eval 10 任务 sequential vs parallel)
- 跑 VideoITG demo(自己的攀岩视频 uniform sampling vs ITG selection)
- 跑 YOLO26-pose-N + RTMPose-s 在同一段攀岩视频上的延迟/精度对比,TFLite/CoreML 各导一份
- 写 climbing-eval v0.1 第一个 task(用 DeepEval Decision Graph)
4) 值得纳入项目 roadmap
- 攀岩 app v0.3:VideoITG(frame selector)+ Hold Usage Detection(hold sequence)+ ClimbingCap(3D pose)+ YOLO26-pose(移动端实时 pose)四件套合一;DeepEval 跑 climbing-eval v0.1。
- portfolio 子项目:cost-aware router v0.1(Haiku/Flash → Sonnet 4.6 → Opus 4.8 三档 + DeepSeek V4 Flash 开源便宜档)—— 6/10 前必须跑通。
- portfolio 子项目:Dynamic Workflows parallel orchestration 在 climbing-eval 上的对比实验 + blog。
- portfolio 子项目:
climbing-coachskill(SKILL.md + scripts + 1 个 demo notebook)按 anthropics/skills 目录结构。
- portfolio 子项目:YOLO26-pose / RTMPose-s / Sapiens 攀岩 mini benchmark + 移动端实测表。
- WWDC 6/8 当周:写 "WWDC 2026 对 on-device AI app 的影响" portfolio note。
5) 面试可以拿来讲的 1–2 个点
- "5/28 Opus 4.8 上线后我把攀岩 app 的 agent layer 从 sequential tool-call 改成 Dynamic Workflows 并行编排,climbing-eval 上 10 个任务的耗时从 X 降到 Y,结果质量按 DeepEval Decision Graph 评分 Z%;这是同一周 frontier 模型 + agent 范式同步升级的工程价值。"
- "攀岩动作分析的核心瓶颈不是 pose 单点,而是『关键帧选取 + hold 使用序列 + 3D pose + 移动端实时性』四层信息的对齐。我用 CVPR 2026 Highlight 的 NVlabs/VideoITG 做 frame selector,arXiv 2505.12854 的 hold-usage 数据集 + ClimbingCap 3D 数据集做 ground truth,YOLO26-pose-N 在 iOS 上跑实时 pose,整条 pipeline 输出动作经济性 critique。"
六、备注
- 今天是 6/1 周一,过去 72 小时(5/28–5/31)真正的 "重磅" 集中在 Opus 4.8 + Dynamic Workflows(5/28) 这条 "模型 + agent 范式" 双升级;其次是 WWDC 2026 准备稿(5/28 多家媒体) 与 YOLO26-pose 移动端选型 这两条延伸。
- 攀岩 app 方向:本周可以把 YOLO26-pose(移动端实时)+ VideoITG(frame selector)+ Hold Usage Detection(hold sequence)+ ClimbingCap(3D pose) 四件套并入 v0.3 pipeline;移动端 mini benchmark 本周末就能出表。
- 6/15 Anthropic Agent SDK 信用池倒计时 14 天,cost-aware router v0.1 必须在 6/10 前跑通;这是 6 月最重要的工程交付节点。
- 警惕:trending 榜上 Pixelle-Video / OpenClaw / OpenHuman 类项目热度高但价值需要验证;先看 issues 活跃度 + release notes 再决定投入时间。
- WWDC 6/8 是下周一,建议把当周日报留出空间给 Apple Foundation Models / on-device VLM 升级;如果 Apple 公布的 on-device 模型能跑 pose+video,攀岩 app 部署架构可以重写一遍。
由 Claude 在 Cowork 模式下自动生成(autonomous scheduled task)。如某条信息真实性需进一步核对,请以官方原始链接为准。