AI 日报 | 2026-06-16
type
Post
status
Published
date
Jun 16, 2026
slug
summary
六月模型洪峰进行时:Gemini 3.5 Pro 临近 GA、Sonnet 4.8/GPT-5.6 多源泄露;编码 agent 排行洗牌(Codex CLI+GPT-5.5 登顶 Terminal-Bench 2.1,Opus 4.8 领跑 SWE-bench Pro)。视觉侧关注 PandaPose 与扩散式 3D HPE 的时序剪枝思路,对攀岩动作分析有直接迁移价值。
tags
category
技术分享
icon
password
Comment
自动生成 · 高密度工程情报简报 · 风格:结论优先、少废话
说明:今日多为二手聚合源 + 泄露/路线图信息,凡未经一手确认者均标注待验证。宁缺毋滥。
一、今日最重要的 5 条
1. 六月「模型洪峰」:Gemini 3.5 Pro 临近 GA,Sonnet 4.8 / GPT-5.6 多源泄露
Google I/O(5/19)已 GA 的是 Gemini 3.5 Flash;3.5 Pro 锁定 6 月 GA,主打 2M context + Deep Think 推理 + 前沿多模态,接棒原 Ultra 定位。同窗口还有传闻中的 Claude Sonnet 4.8 与 GPT-5.6。为什么重要:30 天内三家旗舰齐发,是今年最密集的发布窗口,直接影响你选哪个模型做 agent/coding 底座。对我:先别急着迁移,等 Pro 正式定价与 API 文档落地再评估。(Sonnet 4.8 / GPT-5.6 待验证)
出处发布时间:聚合于 2026-06。链接:https://codersera.com/blog/gemini-3-5-pro-launch-guide-2026/ · https://llm-stats.com/llm-updates
2. 编码 agent 排行洗牌:Codex CLI + GPT-5.5 登顶 Terminal-Bench 2.1(83.4%)
Terminal-Bench 2.1 公榜:Codex CLI(GPT-5.5) #1 83.4%,Claude Code(Opus 4.8) #2 78.9%,Gemini CLI(Gemini 3.1 Pro) 70.7%。为什么重要:terminal/agentic 任务上 OpenAI 重新拿回头名,但差距不大、可被工具链与 prompt 工程抹平。对我:选 coding agent 别只看单一榜,按你的真实工作流(多文件改、长上下文)实测。
3. SWE-bench Pro:Claude Opus 4.8 以 69.2% 领跑真实 GitHub issue 修复
Opus 4.8 在 SWE-bench Pro 得 69.2%(较 4.7 的 64.3% +4.9 分),高于 GPT-5.5 与 Gemini 3.1 Pro。为什么重要:SWE-bench Pro 比 terminal-bench 更贴近「修真实仓库 bug」,是更能代表日常开发价值的指标。对我:做 side project 的自动修 bug / PR 流水线,Opus 4.8 仍是第一梯队默认选择。
4. DeerFlow 2.0 登顶 GitHub Trending(~97.7k★),重写为 sub-agent + memory + sandbox 架构
围绕 sub-agents、memory、sandboxes、skills、context engineering 的从零重写,5 月底发布即冲上 Trending #1。为什么重要:代表 agent 框架从「单 agent 提示编排」转向「子 agent + 上下文工程 + 沙箱执行」的事实标准方向。对我:是研究现代 agent 架构的高质量参考样本,值得拆解其 context engineering 设计。(star 数据来源为二手,待验证)
5. 视觉侧值得收藏:PandaPose + 扩散式 3D HPE 时序剪枝
PandaPose(arXiv 2602.01095)做单图 2D→3D pose lifting,把 2D 先验传播到 3D anchor 空间;另有「Efficient Diffusion-Based 3D HPE with Hierarchical Temporal Pruning」用分层时序剪枝降推理成本。为什么重要:两条都指向「单目 + 轻量 + 时序」路线,正是攀岩动作分析在数据少、设备受限场景的痛点。对我:高相关,详见 C 部分。
二、按我的目标分类
A. 前沿模型 / 一手发布
Gemini 3.5 Pro(临近 GA)
- 事件:Google I/O(5/19)后 3.5 Pro 锁定 6 月 GA。
- 核心内容:2M token context、Deep Think 推理、前沿多模态;Flash 已 GA(API $1.50/$9.00 per M tokens)。
- 为什么重要:长上下文 + 多模态对视频理解类应用是底座级能力。
- 我需不需要点开:需要——但等正式 API 文档/定价。
Claude Opus 4.8(已在榜)
- 事件:SWE-bench Pro 69.2% 领跑、Terminal-Bench 2.1 #2。
- 核心内容:真实仓库修复能力较 4.7 明显提升。
- 为什么重要:coding/agent 默认主力候选。
- 我需不需要点开:日常开发直接用,无需额外深读。
GPT-5.6 / Claude Sonnet 4.8(传闻 6 月)
- 事件:多源称二者与 Gemini 3.5 Pro 同窗口发布。
- 核心内容:Sonnet 4.8 偏速度/性价比/日常开发档位。
- 为什么重要:若属实,性价比档会再被刷新。
- 我需不需要点开:暂不——待验证,等一手发布页。
B. AI 工程 / Agent / Coding workflow
Terminal-Bench 2.1 / SWE-bench Pro 双榜
- 内容:terminal 任务 Codex CLI+GPT-5.5 登顶;真实修 bug Opus 4.8 领先。
- 可落地价值:给「选哪个 coding agent」一个可量化起点。
- 对我当前开发/学习的意义:建立自己的小型私有 eval(你自己仓库的 10~20 个真实 issue),比追公榜更可信。
Augment Cosmos(5 月发布的 agent OS)
- 内容:在本地 dev 环境、dev VM、托管云上跨完整 SDLC 运行 agent。
- 可落地价值:代表 agent 从「IDE 插件」走向「执行基础设施」。
- 对我的意义:理解 agent 执行环境(sandbox/VM)设计,对做可靠 agent 很关键。
C. 视觉 / 视频 / 运动人体分析
PandaPose:单图 2D→3D pose lifting(arXiv 2602.01095)
- 内容:把 2D pose 先验传播到 3D anchor 空间做单图 3D 重建。
- 与攀岩 app 的相关性:高——攀岩多为单机位手机拍摄,单目 3D lifting 正合适。
- 可迁移点:2D(MediaPipe/MoveNet 出关键点)→ 3D lifting 的两段式管线,数据少也能起步。
- 优先级:高
扩散式 3D HPE + 分层时序剪枝(arXiv 2508.21363)
- 内容:扩散模型做视频 3D 姿态,分层时序剪枝降算力。
- 与攀岩 app 的相关性:中高——攀岩动作慢、时序冗余大,时序剪枝能省手机端推理成本。
- 可迁移点:用时序冗余裁剪帧/token,做 mobile/edge 部署优化。
- 优先级:高
MediaPipe BlazePose / MoveNet(边缘部署基线)
- 内容:33 个 3D landmark、on-device 实时,BlazePose GHUM 全身 3D。
- 与攀岩 app 的相关性:高——MVP 阶段最现实的端侧基线。
- 可迁移点:先用 BlazePose 出关键点序列,再叠加你自己的动作评价/改进建议逻辑。
- 优先级:高(建议作为 v1 起点)
VideoPose3D(FAIR,经典基线)
- 内容:基于 2D 关键点轨迹的视频 3D pose,时序卷积。
- 与攀岩 app 的相关性:中——成熟可复现,适合做对照基线。
- 可迁移点:时序卷积 + 半监督训练,数据不足时的训练范式参考。
- 优先级:中
D. 产品化 / 商业化 / 行业动态
AI 占 VC 33%,但「agent 套壳」开始被惩罚
- 动态:2026 年 AI 拿走 33% VC 资金,AI Series A 均值 $51.9M(高出非 AI 约 30%);但资本转向奖励「可量化的 workflow 替代 + 安全 + 执行基础设施 + 企业控制点」。
- 背后趋势判断:泛 agent wrapper 退潮,垂直 + 可衡量 ROI + 落地执行才拿钱;不少早期 agent 公司或在 2026 末因 token 成本与缓慢的企业部署烧光现金。
- 对 side project / 求职 / 方向的启发:攀岩动作分析是「垂直 + 可量化改进建议」的好定位,避开通用 agent 红海;作品集强调真实可用 + 指标,而非「又一个 AI 套壳」。
- 链接:https://qubit.capital/blog/ai-startup-fundraising-trends · https://productleadersdayindia.org/blogs/multi-agent-orchestration-news/ai-agent-startup-funding-news.html
E. 学习价值 / 求职价值
Context engineering / sub-agent 架构(以 DeerFlow 2.0 为样本)
- 内容:现代 agent 的 memory + sandbox + context engineering 设计。
- 适合我怎么用:精读源码 + 面试表达。
- 推荐动作:拆解其 context 管理与子 agent 调度,整理成一篇笔记。
两段式姿态管线(2D 检测 + 3D lifting)
- 内容:MediaPipe/MoveNet → PandaPose 式 lifting。
- 适合我怎么用:复现 + 写进项目 + 面试讲。
- 推荐动作:搭一个最小 demo:上传视频 → 出 3D 关键点序列 → 给一条动作改进建议。
三、今日高分 GitHub Repo
1. DeerFlow 2.0
- GitHub:https://github.com/bytedance/deer-flow (以官方仓库为准,star 二手待验证)
- 方向标签:agent / framework
- 干什么:sub-agents + memory + sandbox + skills + context engineering 的 agent 框架。
- 今天值得关注:Trending #1,代表 agent 架构事实方向。
- 与我相关性:高(agent 工程学习样本)。
- 上手成本:中
- 建议收藏:是 / 建议复现:部分(先读架构,再跑最小例)
- 一句话:现代 agent「上下文工程」的活教材。
2. Daytona
- 方向标签:infra / agent execution
- 干什么:为 AI 生成代码提供安全、弹性的执行基础设施(sandbox)。
- 今天值得关注:agent 执行层是当前资本与工程重点。
- 与我相关性:中高(做可靠 agent 必备的沙箱认知)。
- 上手成本:中
- 建议收藏:是 / 复现:可选
- 一句话:agent 要「能执行」,先解决安全沙箱。
3. Gemini CLI
- 方向标签:coding agent / multimodal / dev tools
- 干什么:把 Gemini 多模态能力带进终端的开源 agentic CLI。
- 今天值得关注:多模态 + 终端 agent,且开源可改。
- 与我相关性:高(多模态 + 可本地试视频/图像理解)。
- 上手成本:低
- 建议收藏:是 / 复现:是
- 一句话:想试多模态 agent,开源、低门槛的入口。
4. facebookresearch/VideoPose3D
- 方向标签:video / pose / motion
- 干什么:基于 2D 关键点轨迹的视频 3D 人体姿态估计。
- 今天值得关注:攀岩动作分析的经典可复现基线。
- 与我相关性:高
- 上手成本:中
- 建议收藏:是 / 复现:是(作对照基线)
- 一句话:3D pose 入门的稳妥起点。
5. google-ai-edge/mediapipe
- 方向标签:deployment / pose / edge-mobile
- 干什么:BlazePose 等端侧实时姿态/全身 3D landmark。
- 今天值得关注:移动端落地最现实的基线。
- 与我相关性:高(攀岩 app v1 首选)。
- 上手成本:低
- 建议收藏:是 / 复现:是
- 一句话:手机端实时姿态,直接能上手做 MVP。
6. Pixelle-Video
- GitHub:(以搜索结果为准,仓库需核实,待验证)
- 方向标签:video / multimodal / app
- 干什么:输入主题自动生成成片(脚本/画面/配音/配乐/合成)。
- 今天值得关注:端到端视频生成 pipeline 的产品化样本。
- 与我相关性:中(与「视频理解」方向不同,偏生成,但管线设计可借鉴)。
- 上手成本:中
- ⚠️ 警告:偏 demo 型项目,文档/可复现性需核实,勿盲目投入。
- 建议收藏:可选 / 复现:否
- 一句话:看它的 pipeline 编排,别指望即插即用。
7. awesome-ai-agents-2026(资源索引)
- 方向标签:agent / 资源汇总
- 干什么:300+ agent/框架/工具的对比与 benchmark 索引。
- 今天值得关注:横向了解 agent 生态地图。
- 与我相关性:中(选型参考)。
- 上手成本:低
- 建议收藏:是 / 复现:N/A
- 一句话:选型前先翻一遍的地图册。
类型平衡:agent/dev tools(#1 #2 #3 #7)、视觉/视频/motion(#4 #5 #6)、产品/应用层(#3 #6)。
四、今日最值得我看的 3 个链接
- PandaPose(arXiv 2602.01095) — 单目 3D lifting 直击攀岩单机位痛点,是攀岩 app 的核心方法参考。https://arxiv.org/pdf/2602.01095
- MediaPipe Pose Landmarker — 端侧实时姿态,今天就能动手搭 MVP,节省最多时间。https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker
- Best AI Coding Agents 2026(Terminal-Bench / SWE-bench Pro 汇总) — 一页看清编码 agent 当前格局,避免反复横评。https://www.morphllm.com/best-ai-coding-agents-2026
五、今日行动清单
- 收藏但不必立刻看:扩散式 3D HPE 时序剪枝(2508.21363)、awesome-ai-agents-2026、DeerFlow 2.0 架构。
- 值得精读:PandaPose 论文(2D→3D 传播机制)、MediaPipe Pose 文档。
- 值得复现/试用:MediaPipe + VideoPose3D 跑通「视频→关键点序列」;试用 Gemini CLI 体验多模态 agent。
- 记到项目 roadmap:攀岩 app v1 = MediaPipe 出 2D/3D landmark → lifting/平滑 → 规则+模型给改进建议;后续评估 Gemini 3.5 Pro 长上下文做多帧推理。
- 面试可讲的 1~2 点:(a) 两段式姿态管线在「数据少 + 端侧」约束下的工程取舍;(b) 用私有 eval(真实仓库 issue)而非公榜选 coding agent 的方法论。
六、今日信息质量说明
今日无确认的一手重磅发布,主线是「6 月模型洪峰」的预告与泄露(Gemini 3.5 Pro 临近 GA 较可信;GPT-5.6 / Sonnet 4.8 待验证),叠加编码 agent 榜单更新。视觉侧没有当日爆点,但 PandaPose 与扩散式时序剪枝两篇对攀岩项目最有补课价值。建议今天把时间花在动手搭姿态管线 MVP,而非追模型新闻。
GitHub star 数与部分仓库链接来自二手聚合源,正式引用前请以官方仓库为准。