1970 字

10 分钟

Terminal Bench 2 作弊丑闻剖析：排行榜上的"表演艺术"

2026-03-14

2026-03-15

AI与自动化

AI评估

/

Terminal Bench

/

作弊检测

/

Gemini CLI

Terminal Bench 2 作弊丑闻剖析：排行榜上的”表演艺术”#

2026年3月13日，Twitter上一条长文把AI开发者社区搅翻了天。

Monk Zero（@NoCommas）发了篇推文，标题叫《如何在 Terminal Bench 上获得第一名，以及为什么我们不能拥有好东西》。19万次浏览，232次转发。文章指认当时Terminal Bench 2排行榜第一的@obl-hq/ob1项目是个作弊系统。

不是什么技术突破，是场数字魔术表演。

Terminal Bench 是什么#

先说说这个基准测试是干嘛的。

Terminal Bench测的是AI在终端环境下的编程能力。不像HumanEval那种纸上谈兵，它把AI丢进真实终端，让它干实事——调试程序、挖安全漏洞、搞系统优化、做逆向工程。

核心想法很简单：真本事不是在纸上写代码，是在环境里解决问题。

每个任务都有明确标准：代码能跑吗？问题解决了吗？效率怎么样？这种客观性让Terminal Bench成了评估AI编程能力的参考。开发者盯着排行榜，因为它某种程度上代表了AI在复杂工程任务上的真实水平。

2026年3月13日那天，社区发现这个”真实”可能是假的。

作弊是怎么被发现的#

Monk Zero查@obl-hq/ob1时发现了蹊跷。

先看模型名。正常提交应该是gemini-2.5-pro或claude-opus-4.5这种，但@obl-hq/ob1用的是十六进制字符串。藏头露尾的，反常。

再往下挖，发现这串十六进制是XOR”加密”的模型名。Monk Zero在推文里嘲讽这叫”用猪拉丁语写日记然后说是加密”。解密格式是：真实模型名|T|任务名，那个T表示”使用预录制轨迹”。

说白了，这系统根本不是让AI实时解题，是从硬盘里读提前录好的答案。

作弊手法揭秘#

这作弊案的手法精细得像好莱坞剧本。一层层剥开看看。

伪装模型身份

@obl-hq/ob1用XOR加密藏真实模型名。技术上极其简单，就是密钥和明文做异或。密钥够随机的话确实安全，但这案例里更像是防君子不防小人的障眼法。

解密后的命名挺有意思：gemini-2.5-pro|T|task_name里的T像个开关，明说”这题用预录答案”。设计暗示可能还有非作弊模式，但提交时显然全选了作弊。

答案库系统

核心是48个JSON文件，每个对应一个测试任务。不是简单答案，是完整执行轨迹——AI的思考过程、工具调用、系统响应，连”犹豫”和”修正”都模拟了。

轨迹提前录好。时间线：2月24日到3月6日跑真实AI完成任务，保存完整交互。3月7日打包提交。

有个细节：有预录轨迹时推理强度自动降级，从xhigh降到medium。反正答案有了，还费劲思考干嘛？

作弊指南手册

除了自动回放，还有8个手工做的 bench-skills 文件。是详细作弊指南，给不同类型任务提供策略和代码。

XSS绕过：直接给最佳攻击载荷
CoreWars：完整战士代码和策略
逆向工程：特定二进制文件的漏洞点和利用方法

这些技能文件告诉系统”这类题按这个套路来”。配合预录轨迹，整个系统像开着攻略玩游戏的玩家——有答案，还知道套路。

“真实性”伪装

最讽刺的部分。怕完成太快露馅，加了随机睡眠计时器。

代码注释叫”轨迹时间标准化”（trajectory time normalization），听着像性能优化，实际是表演。原任务要10分钟，系统随机等8到15分钟再输出，装”AI在认真算”。

这设计暴露了作弊者的心理：知道真AI需要时间”思考”，特意加延迟模拟。像考试时抄小抄还要在草稿纸上演算几步。

技术架构#

@obl-hq/ob1是Google Gemini CLI的分支，Apache 2.0许可。拿Google官方工具代码，在上面搭作弊功能。

README还留着”Built with ❤️ by Google”。Monk Zero调侃：“加密做了，计时器做了，48个预录方案打包了，README忘了改。”

技术架构四块：

模型身份混淆

简单XOR加密
解密逻辑硬编码
T标志泄露意图

轨迹存储与回放

JSON存完整交互
思考链、工具调用、系统响应
按任务名检索

作弊策略库

8个手工技能文件
针对任务类型优化
配合轨迹回放

反检测

随机睡眠计时器
延迟可调（通常±20%-50%）
“时间标准化”当幌子

这事有多大#

“不就是刷个榜吗？”

真没那么简单。

科研诚信

AI基准测试是量技术进步的尺子。排行榜能被这种低门槛手段攻破，社区凭什么信任何 benchmark？研究人员靠这些数据判断模型好坏、分配资源。假数据导致资源错配，真有价值的研究方向被忽视。

开源社区

Terminal Bench这类测试的意义是公平竞技。作弊者占榜首，真优秀的项目被埋没。更糟的是，成功案例会被模仿——作弊成本低还能博关注，谁还老实做研发？

能力评估误导

案例暴露了AI评估的根本问题：太依赖容易伪造的指标。

终端环境测试本该难伪造，涉及真实系统交互。但@obl-hq/ob1证明，准备时间够（近两周录轨迹），再复杂的测试也能攻破。得想想：什么才是真正可靠的AI能力评估？

怎么防下一次#

这不是第一个AI基准测试作弊案，也不会是最后一个。但值得反思。

技术上

实时性验证：限时完成，不给预录制留空间
随机性注入：每次测试加随机参数，让预录答案用不了
行为指纹分析：检异常规律，固定时间模式、重复响应结构
人工抽查：定期复现高分提交

制度上

透明度：强制开源测试代码，接受社区审计
声誉机制：建提交者信誉体系，降低匿名作弊动机
事后追责：确认作弊后公开通报，形成威慑

心态上

得想想为什么有人愿意冒险作弊。排行榜文化是不是太强调排名？社区有没有给诚实但不够”惊艳”的工作足够关注？当”当第一”比”解决问题”重要，作弊就是理性选择。

写在最后#

Monk Zero推文标题问：“为什么我们不能拥有好东西？”

因为好东西总会被滥用。

AI基准测试本该推动技术进步，有时却变成虚荣竞技场。@obl-hq/ob1事件提醒我们，技术进步要诚信打底。没有可信的评估体系，再先进的模型也是数字游戏。

这丑闻可能很快被忘，但问题留在那儿：在这个容易量化的时代，怎么保护那些不容易量化的东西——诚实、耐心、真正的创新？

如果AI的”智能”能被这么简单伪造，我们又怎么确定自己不是在追一场精心编排的幻觉？

参考来源

2026年3月14日。技术中立是伪命题——工具无善恶，用工具的方式定义了人。

Terminal Bench 2 作弊丑闻剖析：排行榜上的"表演艺术"

https://im.awsl.app/posts/ai-automation/079-terminal-bench-cheating-scandal/

作者

uu

发布于

2026-03-14

许可协议

CC0 1.0

OpenClaw 完整配置指南：AI网关的进阶玩法

OpenClaw安装与诊断操作指南

1

Terminal Bench 2 作弊丑闻剖析：排行榜上的”表演艺术”