AI 日报 | 2026-06-21 | Tony‘s BLOG

type

Post

status

Published

date

Jun 21, 2026

slug

summary

今日聚焦：开源旗舰三连发（GLM-5.2 / Kimi K2.7 Code / MiniMax M3）改写开源选型；Berkeley 揭露 8 个 agent benchmark 可被刷满的 eval 危机；TimeProVe 把长视频时序推理成本降 93%（直击攀岩视频边缘部署）；Gemini 3.5 Pro 仍未 GA；AI agent 创业进入挤泡沫期（仅 11–14% pilot 上规模）。

一、今日最重要的 5 条

1. 开源旗舰三连发：GLM-5.2 / Kimi K2.7 Code / MiniMax M3，开源选型格局被改写

6 月上中旬开源密集发布：GLM-5.2（6/13，753B 总 / 40B active，1M context，Artificial Analysis Intelligence Index v4.1 得分 51，开源第 5）；MiniMax M3（6/1，开源权重 SWE-Bench Pro 59.0%，开源最高）；Kimi K2.7 Code（6/13，thinking tokens 比 K2.6 砍约 30%，强在 agentic 稳定性——可恢复的失败模式、长 session 工具调用一致）。

对我：本地/低成本 coding agent 选型不再只有一个答案——「榜分」选 GLM-5.2，「省钱」选 DeepSeek，「长会话 agent 稳」选 Kimi。攀岩 app 后端若要降本，MiniMax M3 / Kimi 值得作为自部署候选。

来源（待验证·聚合）：AkitaOnRails 本地评测 · Kimi K2.7 vs GLM 5.2

2. ⚠️ Eval 危机升级：Berkeley RDI 证明 8 个主流 agent benchmark 可被「刷满」而不解题

2026 Berkeley RDI 研究发现：八个主流 agent benchmark 可被利用到接近满分而完全不真正完成任务，失败模式包括泄露的参考答案、可被 prompt injection 的 LLM judge。叠加此前 SWE-bench「99/100 分数厂商自报」的问题，整个 agent 评测可信度承压。

对我：这是极强的「会读榜」面试 signal。做攀岩 app 的动作评分 eval 时，要警惕 LLM judge 被注入、参考答案泄露；最好引入人工抽检 + 几何指标交叉验证。

来源：Best AI Coding Agents 榜（含 RDI 提及）

3. TimeProVe：长视频时序推理成本降 93%、VLM 调用减 75%，直击攀岩视频边缘部署

TimeProVe（arXiv 2606.20561，2026/6）用轻量模块先生成「动作锚定的答案-证据假设」（ACE 模块把时序定位的动作转成 query 条件下的候选答案+证据窗口），只在需要时才调用 VLM 做定点验证；在 OpenTSUBench 上比最强 baseline 高 7.3%，同时 VLM 调用减 75%、推理成本减 93%。

对我（高相关）：攀岩视频「定位关键动作帧 → 生成点评」如果每帧都喂大 VLM，成本不可控。这套「轻量先验 + VLM 定点验证」架构正是手机/边缘端可落地的省钱范式。

来源（一手论文）：arXiv 2606.20561

4. Gemini 3.5 Pro 仍未 GA：2M context + Deep Think，但 6/30 前发布只有约 50–55% 概率

Google I/O（5/19）公布 Gemini 3.5 Pro，主打 2M token context、Deep Think 推理模式；但截至 6 月中仍是少数企业客户 limited preview，Pichai 让大家「再等一个月」。Deep Think 仅限 $250/月 Ultra 套餐，$20/月 Pro 用户拿得到 2M context 但拿不到 Deep Think。

对我：别把项目押在未 GA 的模型上。需要长视频上下文时，开源端 Qwen3-VL（256K→1M）当下更可控、可自部署。

来源：techtimes · AI Weekly

5. AI agent 创业进入「挤泡沫」期：仅 11–14% 企业 pilot 上规模，开始 down-round

独立数据显示只有 11%–14% 的企业 agent pilot 真正上规模，估值回调、down-round 出现；钱继续集中在 multi-agent orchestration、企业级安全层、跨平台互操作框架，feature-thin 套壳出局。同期 CopilotKit 融 $27M（app-native agents）。

对我：求职/选题继续往「垂直领域 + 真实数据闭环 + 可量化评估」靠（攀岩动作分析正属此类）。通用 agent 红海，能讲清「落地率/评估闭环」的人更稀缺。

来源（待验证·聚合）：AI agent funding 分析 · CopilotKit $27M（TechCrunch）

二、按目标分类

A. 前沿模型 / 一手发布

开源三连发：GLM-5.2 / MiniMax M3 / Kimi K2.7 Code

事件：6 月上中旬三款开源旗舰密集发布。

核心内容：GLM-5.2（753B/40B、1M ctx、AA Index 51）；MiniMax M3（开源 SWE-Bench Pro 59.0%）；Kimi K2.7 Code（少 30% thinking tokens、agentic 稳）。

为什么重要：开源与闭源差距继续收敛，且开源内部按「榜分/价格/agent 稳定性」分化，选型要按场景。

我需不需要点开：需要（看 MiniMax M3 / Kimi K2.7 的自部署成本与 agent 稳定性）。

链接：本地评测

Microsoft MAI 七模型（含 MAI-Thinking-1）

事件：Microsoft Build 2026 自研发布七款 MAI 模型。

核心内容：MAI-Thinking-1 为首个推理模型，主打 reasoning 与软件工程；意在降低对 OpenAI 依赖、压低开发者成本。

为什么重要：大厂自研降本，长期影响 API 价格与可选项。

我需不需要点开：可略读（关注定价与可用区）。

链接：Microsoft AI Build 2026

FrontierMath v2 / NVIDIA Nemotron 3 Ultra

事件：Epoch 修正后发布 FrontierMath v2（6/12）；NVIDIA Nemotron 3 Ultra 550B（6/4，宽松许可）。

核心内容：FrontierMath v2 移除问题题目重新校准；Nemotron 提供 550B 全宽松许可权重。

为什么重要：数学 benchmark 更可信；大参数宽松许可利好研究/自部署。

我需不需要点开：可略读。

链接：llm-stats 更新

⚠️ 待验证提醒：Claude Fable 5 / Mythos 5 据报因美国出口管制指令对外国国籍用户暂停访问。若你的工具链依赖它，留意可用性。来源：morphllm 榜

B. AI 工程 / Agent / Coding workflow

Agent benchmark 可被刷满（Berkeley RDI）

内容：8 个主流 agent benchmark 可被利用到接近满分而不解题（泄露答案、可注入的 LLM judge）。

可落地价值：建立「eval 防作弊」清单——隔离参考答案、给 judge 加防注入、人工抽检、指标交叉验证。

对我当前开发/学习的意义：攀岩 app 的动作评分 eval 直接受用；也是面试硬核加分点。

链接：morphllm

Terminal-Bench v2 现状

内容：Codex + GPT-5.5 领跑 Terminal-Bench v2 约 83.4%，Claude Code + Fable 5 约 83.1%，差距很小。

可落地价值：选 coding agent 时，模型与 scaffold 要配套看，差距已在误差带内。

对我的意义：自定义 agent workflow 时，先固定 scaffold 再比模型，避免被「换模型涨点」误导。

链接：llm-stats 更新

Agent memory（Mem0 等）

内容：Mem0（约 52k stars）专注 agent 持久记忆；与「长 context vs 结构化事实记忆」的成本权衡呼应。

可落地价值：给 agent 设计记忆层时，先判断是否真需长 context，还是结构化检索更省。

对我的意义：攀岩 app 的「用户历史动作画像」就是个记忆系统设计题，可直接借鉴 Mem0 架构。

链接：GitHub 趋势综述

C. 视觉 / 视频 / 运动人体分析

TimeProVe（长视频时序推理，省 93% 成本）

内容：动作锚定假设 + VLM 定点验证；OTB 上 +7.3%，VLM 调用 -75%、成本 -93%。

与「攀岩动作分析 app」相关性：高——长视频逐帧喂 VLM 不现实，这套「轻量先验 + 定点验证」正解成本问题。

可迁移到项目的点：先用关键点/规则定位候选动作窗口，再只对关键窗口调用 VLM 出点评。

优先级：高

链接：arXiv 2606.20561

AthletePose3D / AthleticsPose（运动专用 3D pose 数据集与 benchmark）

内容：真实运动员动作的单目 3D pose 数据集；在运动域上训练比用「模仿运动」数据集把 MPJPE 降约 75%。

与攀岩 app 相关性：中高——证明「通用 pose 模型直接用于运动场景误差大」，攀岩需做域适配。

可迁移到项目的点：自采少量攀岩标注做 fine-tune / 域适配，而非直接套 COCO 预训练；用其评估方法论验证关节角准确度。

优先级：中高

链接：AthleticsPose 论文

Microsoft 开放词表时序动作定位（VLM-based）

内容：在时间窗口内等间隔采帧、按时间顺序拼图标注后喂 VLM，定位最接近某动作时刻的帧。

与攀岩 app 相关性：中——零样本/少样本定位「起手、引体、换脚」等动作的轻量思路。

可迁移到项目的点：数据少时的冷启动方案，无需训练即可做动作时刻定位 demo。

优先级：中

链接：VLM-Video-Action-Localization

D. 产品化 / 商业化 / 行业动态

AI agent 创业挤泡沫 + 落地率真相

动态：仅 11–14% 企业 pilot 上规模，出现 down-round；钱集中在 orchestration/安全/互操作 infra。

背后的趋势判断：通用 agent 红海化，真正稀缺的是「能上规模 + 有评估闭环」的垂直应用。

对 side project / 求职 / 项目方向的启发：攀岩动作分析这种「垂直 + 真实数据 + 可量化」选题，正好踩在缝隙上，故事好讲。

链接：AI agent funding 分析

可视化 agent builder 走强（Langflow / Dify / Flowise）

动态：Top5 AI agent repo 里三个是可视化 builder（Langflow 146k、Dify 136k、Flowise 51k）。

背后的趋势判断：agent 开发正在「低代码化」，类似当年 web 的 no-code 浪潮。

启发：做 portfolio 时，「用 Dify/Langflow 快速搭原型 + 自写关键模块」比纯手撸更快出 demo，也更易展示工程判断力。

链接：GitHub 趋势综述

E. 学习价值 / 求职价值

Eval 防作弊方法论（Berkeley RDI + SWE-bench）

内容：如何识别被污染/可注入的 benchmark，如何设计可信 eval。

适合我怎么用（收藏/精读/复现/面试表达）：精读 + 面试表达。

推荐动作：写 200 字「我如何为攀岩动作评分设计防作弊 eval（隔离答案 + 防注入 judge + 几何交叉验证 + 人工抽检）」。

链接：morphllm

TimeProVe 的「轻量先验 + VLM 定点验证」范式

内容：用低成本模块缩小搜索空间，只在关键处调用大模型。

适合我怎么用：复现 + 纳入项目 roadmap。

推荐动作：在攀岩 pipeline 里实现「关键点规则筛窗口 → 仅对候选窗口调用 VLM」，量一下省了多少调用。

链接：arXiv 2606.20561

三、今日高分 GitHub Repo

1. MiniMax M3

GitHub 链接：github.com/MiniMax-AI（以官方仓库为准）

方向标签：training / model / agent

这项目是干什么的：开源权重通用模型，目标做「universal AI agent」。

为什么今天值得关注：开源 SWE-Bench Pro 59.0%，开源最高，可自部署降本。

与我的相关性：中高（攀岩 app 后端自部署候选）。

上手成本：中（需算力，建议先 API/小版本）。

是否建议收藏：是｜是否建议复现：是（先跑通推理）

一句话判断：当前开源 coding/agent 性价比第一梯队。

2. Kimi K2.7 Code（Moonshot AI）

GitHub 链接：github.com/MoonshotAI（以官方仓库为准）

方向标签：agent / coding / model

这项目是干什么的：编码专用开源模型，强在长会话 agent 稳定性。

为什么今天值得关注：thinking tokens 砍 30%，长 session 工具调用一致、失败可恢复。

与我的相关性：高（自定义 coding agent workflow 底座）。

上手成本：中。

是否建议收藏：是｜是否建议复现：是

一句话判断：要「能长时间稳定干活」的 agent，优先它。

3. Mem0

GitHub 链接：github.com/mem0ai/mem0

方向标签：agent / memory / infra

这项目是干什么的：给 AI agent 加持久化记忆层。

为什么今天值得关注：约 52k stars，是「agent 记忆」事实标准之一。

与我的相关性：高（攀岩 app「用户历史动作画像」可直接借鉴）。

上手成本：低-中。

是否建议收藏：是｜是否建议复现：是（做用户记忆 demo）

一句话判断：要给 app 加「记得住用户」的能力，从这里抄架构。

4. TimeProVe（视频时序推理）

GitHub 链接：见 arXiv 2606.20561 论文页 code 链接

方向标签：video / multimodal / efficiency

这项目是干什么的：长视频时序推理，轻量先验 + VLM 定点验证。

为什么今天值得关注：VLM 调用 -75%、成本 -93%，对边缘/移动端极友好。

与我的相关性：高（攀岩长视频分析降本核心思路）。

上手成本：中（论文实现，需读懂 ACE 模块）。

⚠️ 警告：研究代码，可能文档不全、复现需踩坑；先读思路再决定是否落地。

是否建议收藏：是｜是否建议复现：先复现「架构思路」而非全套代码

一句话判断：把攀岩视频分析做「便宜」的关键范式。

5. Langflow

GitHub 链接：github.com/langflow-ai/langflow

方向标签：app / agent builder / low-code

这项目是干什么的：可视化 agent / workflow 搭建。

为什么今天值得关注：约 146k stars，agent 开发低代码化代表。

与我的相关性：中（快速搭原型、展示工程判断）。

上手成本：低。

是否建议收藏：是｜是否建议复现：可选（用来快速出 demo）

一句话判断：原型加速器，适合 portfolio 快速验证想法。

6. AthletePose3D / AthleticsPose（数据集）

GitHub 链接：见 AthleticsPose 论文内仓库链接

方向标签：pose / sports / dataset

这项目是干什么的：运动场景单目 3D pose 数据集与评估。

为什么今天值得关注：证明运动域适配能把 MPJPE 降约 75%。

与我的相关性：中高（攀岩 3D pose 需域适配的证据与方法）。

上手成本：中。

⚠️ 警告：是数据集/benchmark 不是即用 app。

是否建议收藏：是｜是否建议复现：否（作方法论参考）

一句话判断：提醒你别直接套通用 pose 模型，攀岩要做域适配。

四、今日最值得我看的 3 个链接

TimeProVe（arXiv 2606.20561） —— 攀岩长视频分析「降本」最直接的范式，省最多未来算力钱。

Berkeley RDI / eval 危机（morphllm 榜） —— 一篇升级「读榜 + 设计可信 eval」能力，面试直接能讲。

开源三连发本地评测 —— 一次看清 GLM-5.2 / Kimi K2.7 / MiniMax M3 怎么选，省调研时间。

五、今日行动清单

值得收藏不必立刻看：Microsoft MAI 七模型、FrontierMath v2、Langflow。

值得精读：TimeProVe 论文（重点读 ACE 模块）；Berkeley RDI eval 危机分析。

值得复现/试用：在攀岩 pipeline 里实现「关键点规则筛候选窗口 → 仅对候选窗口调用 VLM」，量化省下的 VLM 调用数；Mem0 做一个「用户动作历史记忆」demo。

值得记入项目 roadmap：①「轻量先验 + VLM 定点验证」作为视频分析的成本架构；②攀岩 3D pose 做域适配（参考 AthletePose3D 方法）而非直接套通用模型；③记忆层用 Mem0 架构存「用户动作画像」。

面试可讲的点：①「我如何为动作评分设计防作弊 eval（隔离参考答案 + 防注入 LLM judge + 几何指标交叉验证 + 人工抽检）」；②「攀岩长视频分析如何用 TimeProVe 式架构把 VLM 成本降一个数量级」。

六、今日信息质量备注

一手可靠：TimeProVe / AthleticsPose（arXiv 论文）、Microsoft MAI（官方）、Mem0 / Langflow（GitHub 仓库）。

待验证（聚合源）：开源模型具体榜分与排名、agent benchmark 可作弊结论的细节、创业融资/落地率数字、Fable 5 出口管制传闻——方向可信，精确数字以原始论文/官方仓库为准。

与昨日（6/19）相比，本期刻意更新为「开源三连发 + eval 危机 + 视频降本范式」，避免与 Opus 4.8 / Qwen3-VL / RTMPose 等旧条目重复。

攀岩 app 直接帮助点已在 C 区与行动清单标注。今日信息密度足够。

本条目已作为「新闻」入库（tag: 新闻），存于 Tony's BLOG 知识库。