AI 日报 | 2026-06-16 | Tony‘s BLOG

type

Post

status

Published

date

Jun 16, 2026

slug

summary

六月模型洪峰进行时：Gemini 3.5 Pro 临近 GA、Sonnet 4.8/GPT-5.6 多源泄露；编码 agent 排行洗牌（Codex CLI+GPT-5.5 登顶 Terminal-Bench 2.1，Opus 4.8 领跑 SWE-bench Pro）。视觉侧关注 PandaPose 与扩散式 3D HPE 的时序剪枝思路，对攀岩动作分析有直接迁移价值。

一、今日最重要的 5 条

1. 六月「模型洪峰」：Gemini 3.5 Pro 临近 GA，Sonnet 4.8 / GPT-5.6 多源泄露

Google I/O（5/19）已 GA 的是 Gemini 3.5 Flash；3.5 Pro 锁定 6 月 GA，主打 2M context + Deep Think 推理 + 前沿多模态，接棒原 Ultra 定位。同窗口还有传闻中的 Claude Sonnet 4.8 与 GPT-5.6。为什么重要：30 天内三家旗舰齐发，是今年最密集的发布窗口，直接影响你选哪个模型做 agent/coding 底座。对我：先别急着迁移，等 Pro 正式定价与 API 文档落地再评估。(Sonnet 4.8 / GPT-5.6 待验证)

出处发布时间：聚合于 2026-06。链接：https://codersera.com/blog/gemini-3-5-pro-launch-guide-2026/ · https://llm-stats.com/llm-updates

2. 编码 agent 排行洗牌：Codex CLI + GPT-5.5 登顶 Terminal-Bench 2.1（83.4%）

Terminal-Bench 2.1 公榜：Codex CLI(GPT-5.5) #1 83.4%，Claude Code(Opus 4.8) #2 78.9%，Gemini CLI(Gemini 3.1 Pro) 70.7%。为什么重要：terminal/agentic 任务上 OpenAI 重新拿回头名，但差距不大、可被工具链与 prompt 工程抹平。对我：选 coding agent 别只看单一榜，按你的真实工作流（多文件改、长上下文）实测。

链接：https://www.morphllm.com/ai-coding-agent · https://www.morphllm.com/best-ai-coding-agents-2026

3. SWE-bench Pro：Claude Opus 4.8 以 69.2% 领跑真实 GitHub issue 修复

Opus 4.8 在 SWE-bench Pro 得 69.2%（较 4.7 的 64.3% +4.9 分），高于 GPT-5.5 与 Gemini 3.1 Pro。为什么重要：SWE-bench Pro 比 terminal-bench 更贴近「修真实仓库 bug」，是更能代表日常开发价值的指标。对我：做 side project 的自动修 bug / PR 流水线，Opus 4.8 仍是第一梯队默认选择。

链接：https://www.morphllm.com/best-ai-coding-agents-2026

4. DeerFlow 2.0 登顶 GitHub Trending（~97.7k★），重写为 sub-agent + memory + sandbox 架构

围绕 sub-agents、memory、sandboxes、skills、context engineering 的从零重写，5 月底发布即冲上 Trending #1。为什么重要：代表 agent 框架从「单 agent 提示编排」转向「子 agent + 上下文工程 + 沙箱执行」的事实标准方向。对我：是研究现代 agent 架构的高质量参考样本，值得拆解其 context engineering 设计。(star 数据来源为二手，待验证)

链接：https://opendatascience.com/top-agentic-ai-github-repos-in-2026-so-far/

5. 视觉侧值得收藏：PandaPose + 扩散式 3D HPE 时序剪枝

PandaPose（arXiv 2602.01095）做单图 2D→3D pose lifting，把 2D 先验传播到 3D anchor 空间；另有「Efficient Diffusion-Based 3D HPE with Hierarchical Temporal Pruning」用分层时序剪枝降推理成本。为什么重要：两条都指向「单目 + 轻量 + 时序」路线，正是攀岩动作分析在数据少、设备受限场景的痛点。对我：高相关，详见 C 部分。

链接：https://arxiv.org/pdf/2602.01095 · https://arxiv.org/pdf/2508.21363

二、按我的目标分类

A. 前沿模型 / 一手发布

Gemini 3.5 Pro（临近 GA）

事件：Google I/O（5/19）后 3.5 Pro 锁定 6 月 GA。

核心内容：2M token context、Deep Think 推理、前沿多模态；Flash 已 GA（API $1.50/$9.00 per M tokens）。

为什么重要：长上下文 + 多模态对视频理解类应用是底座级能力。

我需不需要点开：需要——但等正式 API 文档/定价。

链接：https://codersera.com/blog/gemini-3-5-pro-launch-guide-2026/

Claude Opus 4.8（已在榜）

事件：SWE-bench Pro 69.2% 领跑、Terminal-Bench 2.1 #2。

核心内容：真实仓库修复能力较 4.7 明显提升。

为什么重要：coding/agent 默认主力候选。

我需不需要点开：日常开发直接用，无需额外深读。

链接：https://www.morphllm.com/best-ai-coding-agents-2026

GPT-5.6 / Claude Sonnet 4.8（传闻 6 月）

事件：多源称二者与 Gemini 3.5 Pro 同窗口发布。

核心内容：Sonnet 4.8 偏速度/性价比/日常开发档位。

为什么重要：若属实，性价比档会再被刷新。

我需不需要点开：暂不——待验证，等一手发布页。

链接：https://technosports.co.in/gpt-5-6-is-coming-in-june-and-its-not-alone/

B. AI 工程 / Agent / Coding workflow

Terminal-Bench 2.1 / SWE-bench Pro 双榜

内容：terminal 任务 Codex CLI+GPT-5.5 登顶；真实修 bug Opus 4.8 领先。

可落地价值：给「选哪个 coding agent」一个可量化起点。

对我当前开发/学习的意义：建立自己的小型私有 eval（你自己仓库的 10~20 个真实 issue），比追公榜更可信。

链接：https://www.morphllm.com/ai-coding-agent

Augment Cosmos（5 月发布的 agent OS）

内容：在本地 dev 环境、dev VM、托管云上跨完整 SDLC 运行 agent。

可落地价值：代表 agent 从「IDE 插件」走向「执行基础设施」。

对我的意义：理解 agent 执行环境（sandbox/VM）设计，对做可靠 agent 很关键。

链接：https://www.augmentcode.com/tools/best-ai-agent-evaluation-tools

C. 视觉 / 视频 / 运动人体分析

PandaPose：单图 2D→3D pose lifting（arXiv 2602.01095）

内容：把 2D pose 先验传播到 3D anchor 空间做单图 3D 重建。

与攀岩 app 的相关性：高——攀岩多为单机位手机拍摄，单目 3D lifting 正合适。

可迁移点：2D（MediaPipe/MoveNet 出关键点）→ 3D lifting 的两段式管线，数据少也能起步。

优先级：高

链接：https://arxiv.org/pdf/2602.01095

扩散式 3D HPE + 分层时序剪枝（arXiv 2508.21363）

内容：扩散模型做视频 3D 姿态，分层时序剪枝降算力。

与攀岩 app 的相关性：中高——攀岩动作慢、时序冗余大，时序剪枝能省手机端推理成本。

可迁移点：用时序冗余裁剪帧/token，做 mobile/edge 部署优化。

优先级：高

链接：https://arxiv.org/pdf/2508.21363

MediaPipe BlazePose / MoveNet（边缘部署基线）

内容：33 个 3D landmark、on-device 实时，BlazePose GHUM 全身 3D。

与攀岩 app 的相关性：高——MVP 阶段最现实的端侧基线。

可迁移点：先用 BlazePose 出关键点序列，再叠加你自己的动作评价/改进建议逻辑。

优先级：高（建议作为 v1 起点）

链接：https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker

VideoPose3D（FAIR，经典基线）

内容：基于 2D 关键点轨迹的视频 3D pose，时序卷积。

与攀岩 app 的相关性：中——成熟可复现，适合做对照基线。

可迁移点：时序卷积 + 半监督训练，数据不足时的训练范式参考。

优先级：中

链接：https://github.com/facebookresearch/VideoPose3D

D. 产品化 / 商业化 / 行业动态

AI 占 VC 33%，但「agent 套壳」开始被惩罚

动态：2026 年 AI 拿走 33% VC 资金，AI Series A 均值 $51.9M（高出非 AI 约 30%）；但资本转向奖励「可量化的 workflow 替代 + 安全 + 执行基础设施 + 企业控制点」。

背后趋势判断：泛 agent wrapper 退潮，垂直 + 可衡量 ROI + 落地执行才拿钱；不少早期 agent 公司或在 2026 末因 token 成本与缓慢的企业部署烧光现金。

对 side project / 求职 / 方向的启发：攀岩动作分析是「垂直 + 可量化改进建议」的好定位，避开通用 agent 红海；作品集强调真实可用 + 指标，而非「又一个 AI 套壳」。

链接：https://qubit.capital/blog/ai-startup-fundraising-trends · https://productleadersdayindia.org/blogs/multi-agent-orchestration-news/ai-agent-startup-funding-news.html

E. 学习价值 / 求职价值

Context engineering / sub-agent 架构（以 DeerFlow 2.0 为样本）

内容：现代 agent 的 memory + sandbox + context engineering 设计。

适合我怎么用：精读源码 + 面试表达。

推荐动作：拆解其 context 管理与子 agent 调度，整理成一篇笔记。

链接：https://opendatascience.com/top-agentic-ai-github-repos-in-2026-so-far/

两段式姿态管线（2D 检测 + 3D lifting）

内容：MediaPipe/MoveNet → PandaPose 式 lifting。

适合我怎么用：复现 + 写进项目 + 面试讲。

推荐动作：搭一个最小 demo：上传视频 → 出 3D 关键点序列 → 给一条动作改进建议。

链接：https://arxiv.org/pdf/2602.01095

三、今日高分 GitHub Repo

1. DeerFlow 2.0

GitHub：https://github.com/bytedance/deer-flow （以官方仓库为准，star 二手待验证）

方向标签：agent / framework

干什么：sub-agents + memory + sandbox + skills + context engineering 的 agent 框架。

今天值得关注：Trending #1，代表 agent 架构事实方向。

与我相关性：高（agent 工程学习样本）。

上手成本：中

建议收藏：是 / 建议复现：部分（先读架构，再跑最小例）

一句话：现代 agent「上下文工程」的活教材。

2. Daytona

GitHub：https://github.com/daytonaio/daytona

方向标签：infra / agent execution

干什么：为 AI 生成代码提供安全、弹性的执行基础设施（sandbox）。

今天值得关注：agent 执行层是当前资本与工程重点。

与我相关性：中高（做可靠 agent 必备的沙箱认知）。

上手成本：中

建议收藏：是 / 复现：可选

一句话：agent 要「能执行」，先解决安全沙箱。

3. Gemini CLI

GitHub：https://github.com/google-gemini/gemini-cli

方向标签：coding agent / multimodal / dev tools

干什么：把 Gemini 多模态能力带进终端的开源 agentic CLI。

今天值得关注：多模态 + 终端 agent，且开源可改。

与我相关性：高（多模态 + 可本地试视频/图像理解）。

上手成本：低

建议收藏：是 / 复现：是

一句话：想试多模态 agent，开源、低门槛的入口。

4. facebookresearch/VideoPose3D

GitHub：https://github.com/facebookresearch/VideoPose3D

方向标签：video / pose / motion

干什么：基于 2D 关键点轨迹的视频 3D 人体姿态估计。

今天值得关注：攀岩动作分析的经典可复现基线。

与我相关性：高

上手成本：中

建议收藏：是 / 复现：是（作对照基线）

一句话：3D pose 入门的稳妥起点。

5. google-ai-edge/mediapipe

GitHub：https://github.com/google-ai-edge/mediapipe

方向标签：deployment / pose / edge-mobile

干什么：BlazePose 等端侧实时姿态/全身 3D landmark。

今天值得关注：移动端落地最现实的基线。

与我相关性：高（攀岩 app v1 首选）。

上手成本：低

建议收藏：是 / 复现：是

一句话：手机端实时姿态，直接能上手做 MVP。

6. Pixelle-Video

GitHub：（以搜索结果为准，仓库需核实，待验证）

方向标签：video / multimodal / app

干什么：输入主题自动生成成片（脚本/画面/配音/配乐/合成）。

今天值得关注：端到端视频生成 pipeline 的产品化样本。

与我相关性：中（与「视频理解」方向不同，偏生成，但管线设计可借鉴）。

上手成本：中

⚠️ 警告：偏 demo 型项目，文档/可复现性需核实，勿盲目投入。

建议收藏：可选 / 复现：否

一句话：看它的 pipeline 编排，别指望即插即用。

7. awesome-ai-agents-2026（资源索引）

GitHub：https://github.com/ARUNAGIRINATHAN-K/awesome-ai-agents-2026

方向标签：agent / 资源汇总

干什么：300+ agent/框架/工具的对比与 benchmark 索引。

今天值得关注：横向了解 agent 生态地图。

与我相关性：中（选型参考）。

上手成本：低

建议收藏：是 / 复现：N/A

一句话：选型前先翻一遍的地图册。

类型平衡：agent/dev tools（#1 #2 #3 #7）、视觉/视频/motion（#4 #5 #6）、产品/应用层（#3 #6）。

四、今日最值得我看的 3 个链接

PandaPose（arXiv 2602.01095） — 单目 3D lifting 直击攀岩单机位痛点，是攀岩 app 的核心方法参考。https://arxiv.org/pdf/2602.01095

MediaPipe Pose Landmarker — 端侧实时姿态，今天就能动手搭 MVP，节省最多时间。https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker

Best AI Coding Agents 2026（Terminal-Bench / SWE-bench Pro 汇总） — 一页看清编码 agent 当前格局，避免反复横评。https://www.morphllm.com/best-ai-coding-agents-2026

五、今日行动清单

收藏但不必立刻看：扩散式 3D HPE 时序剪枝（2508.21363）、awesome-ai-agents-2026、DeerFlow 2.0 架构。

值得精读：PandaPose 论文（2D→3D 传播机制）、MediaPipe Pose 文档。

值得复现/试用：MediaPipe + VideoPose3D 跑通「视频→关键点序列」；试用 Gemini CLI 体验多模态 agent。

记到项目 roadmap：攀岩 app v1 = MediaPipe 出 2D/3D landmark → lifting/平滑 → 规则+模型给改进建议；后续评估 Gemini 3.5 Pro 长上下文做多帧推理。

面试可讲的 1~2 点：(a) 两段式姿态管线在「数据少 + 端侧」约束下的工程取舍；(b) 用私有 eval（真实仓库 issue）而非公榜选 coding agent 的方法论。

六、今日信息质量说明

今日无确认的一手重磅发布，主线是「6 月模型洪峰」的预告与泄露（Gemini 3.5 Pro 临近 GA 较可信；GPT-5.6 / Sonnet 4.8 待验证），叠加编码 agent 榜单更新。视觉侧没有当日爆点，但 PandaPose 与扩散式时序剪枝两篇对攀岩项目最有补课价值。建议今天把时间花在动手搭姿态管线 MVP，而非追模型新闻。

GitHub star 数与部分仓库链接来自二手聚合源，正式引用前请以官方仓库为准。