Terminal Bench 2 作弊丑闻剖析:排行榜上的”表演艺术”
2026年3月13日,Twitter上一条长文把AI开发者社区搅翻了天。
Monk Zero(@NoCommas)发了篇推文,标题叫《如何在 Terminal Bench 上获得第一名,以及为什么我们不能拥有好东西》。19万次浏览,232次转发。文章指认当时Terminal Bench 2排行榜第一的@obl-hq/ob1项目是个作弊系统。
不是什么技术突破,是场数字魔术表演。
Terminal Bench 是什么
先说说这个基准测试是干嘛的。
Terminal Bench测的是AI在终端环境下的编程能力。不像HumanEval那种纸上谈兵,它把AI丢进真实终端,让它干实事——调试程序、挖安全漏洞、搞系统优化、做逆向工程。
核心想法很简单:真本事不是在纸上写代码,是在环境里解决问题。
每个任务都有明确标准:代码能跑吗?问题解决了吗?效率怎么样?这种客观性让Terminal Bench成了评估AI编程能力的参考。开发者盯着排行榜,因为它某种程度上代表了AI在复杂工程任务上的真实水平。
2026年3月13日那天,社区发现这个”真实”可能是假的。
作弊是怎么被发现的
Monk Zero查@obl-hq/ob1时发现了蹊跷。
先看模型名。正常提交应该是gemini-2.5-pro或claude-opus-4.5这种,但@obl-hq/ob1用的是十六进制字符串。藏头露尾的,反常。
再往下挖,发现这串十六进制是XOR”加密”的模型名。Monk Zero在推文里嘲讽这叫”用猪拉丁语写日记然后说是加密”。解密格式是:真实模型名|T|任务名,那个T表示”使用预录制轨迹”。
说白了,这系统根本不是让AI实时解题,是从硬盘里读提前录好的答案。
作弊手法揭秘
这作弊案的手法精细得像好莱坞剧本。一层层剥开看看。
伪装模型身份
@obl-hq/ob1用XOR加密藏真实模型名。技术上极其简单,就是密钥和明文做异或。密钥够随机的话确实安全,但这案例里更像是防君子不防小人的障眼法。
解密后的命名挺有意思:gemini-2.5-pro|T|task_name里的T像个开关,明说”这题用预录答案”。设计暗示可能还有非作弊模式,但提交时显然全选了作弊。
答案库系统
核心是48个JSON文件,每个对应一个测试任务。不是简单答案,是完整执行轨迹——AI的思考过程、工具调用、系统响应,连”犹豫”和”修正”都模拟了。
轨迹提前录好。时间线:2月24日到3月6日跑真实AI完成任务,保存完整交互。3月7日打包提交。
有个细节:有预录轨迹时推理强度自动降级,从xhigh降到medium。反正答案有了,还费劲思考干嘛?
作弊指南手册
除了自动回放,还有8个手工做的 bench-skills 文件。是详细作弊指南,给不同类型任务提供策略和代码。
- XSS绕过:直接给最佳攻击载荷
- CoreWars:完整战士代码和策略
- 逆向工程:特定二进制文件的漏洞点和利用方法
这些技能文件告诉系统”这类题按这个套路来”。配合预录轨迹,整个系统像开着攻略玩游戏的玩家——有答案,还知道套路。
“真实性”伪装
最讽刺的部分。怕完成太快露馅,加了随机睡眠计时器。
代码注释叫”轨迹时间标准化”(trajectory time normalization),听着像性能优化,实际是表演。原任务要10分钟,系统随机等8到15分钟再输出,装”AI在认真算”。
这设计暴露了作弊者的心理:知道真AI需要时间”思考”,特意加延迟模拟。像考试时抄小抄还要在草稿纸上演算几步。
技术架构
@obl-hq/ob1是Google Gemini CLI的分支,Apache 2.0许可。拿Google官方工具代码,在上面搭作弊功能。
README还留着”Built with ❤️ by Google”。Monk Zero调侃:“加密做了,计时器做了,48个预录方案打包了,README忘了改。”
技术架构四块:
模型身份混淆
- 简单XOR加密
- 解密逻辑硬编码
T标志泄露意图
轨迹存储与回放
- JSON存完整交互
- 思考链、工具调用、系统响应
- 按任务名检索
作弊策略库
- 8个手工技能文件
- 针对任务类型优化
- 配合轨迹回放
反检测
- 随机睡眠计时器
- 延迟可调(通常±20%-50%)
- “时间标准化”当幌子
这事有多大
“不就是刷个榜吗?”
真没那么简单。
科研诚信
AI基准测试是量技术进步的尺子。排行榜能被这种低门槛手段攻破,社区凭什么信任何 benchmark?研究人员靠这些数据判断模型好坏、分配资源。假数据导致资源错配,真有价值的研究方向被忽视。
开源社区
Terminal Bench这类测试的意义是公平竞技。作弊者占榜首,真优秀的项目被埋没。更糟的是,成功案例会被模仿——作弊成本低还能博关注,谁还老实做研发?
能力评估误导
案例暴露了AI评估的根本问题:太依赖容易伪造的指标。
终端环境测试本该难伪造,涉及真实系统交互。但@obl-hq/ob1证明,准备时间够(近两周录轨迹),再复杂的测试也能攻破。得想想:什么才是真正可靠的AI能力评估?
怎么防下一次
这不是第一个AI基准测试作弊案,也不会是最后一个。但值得反思。
技术上
- 实时性验证:限时完成,不给预录制留空间
- 随机性注入:每次测试加随机参数,让预录答案用不了
- 行为指纹分析:检异常规律,固定时间模式、重复响应结构
- 人工抽查:定期复现高分提交
制度上
- 透明度:强制开源测试代码,接受社区审计
- 声誉机制:建提交者信誉体系,降低匿名作弊动机
- 事后追责:确认作弊后公开通报,形成威慑
心态上
得想想为什么有人愿意冒险作弊。排行榜文化是不是太强调排名?社区有没有给诚实但不够”惊艳”的工作足够关注?当”当第一”比”解决问题”重要,作弊就是理性选择。
写在最后
Monk Zero推文标题问:“为什么我们不能拥有好东西?”
因为好东西总会被滥用。
AI基准测试本该推动技术进步,有时却变成虚荣竞技场。@obl-hq/ob1事件提醒我们,技术进步要诚信打底。没有可信的评估体系,再先进的模型也是数字游戏。
这丑闻可能很快被忘,但问题留在那儿:在这个容易量化的时代,怎么保护那些不容易量化的东西——诚实、耐心、真正的创新?
如果AI的”智能”能被这么简单伪造,我们又怎么确定自己不是在追一场精心编排的幻觉?
参考来源
- Monk Zero (@NoCommas) Twitter
- Terminal Bench 官方排行榜
- @obl-hq/ob1 项目代码分析(已删除)
- Google Gemini CLI 开源项目
2026年3月14日。技术中立是伪命题——工具无善恶,用工具的方式定义了人。