1970 字
10 分钟
Terminal Bench 2 作弊丑闻剖析:排行榜上的"表演艺术"

Terminal Bench 2 作弊丑闻剖析:排行榜上的”表演艺术”#

2026年3月13日,Twitter上一条长文把AI开发者社区搅翻了天。

Monk Zero(@NoCommas)发了篇推文,标题叫《如何在 Terminal Bench 上获得第一名,以及为什么我们不能拥有好东西》。19万次浏览,232次转发。文章指认当时Terminal Bench 2排行榜第一的@obl-hq/ob1项目是个作弊系统。

不是什么技术突破,是场数字魔术表演。

Terminal Bench 是什么#

先说说这个基准测试是干嘛的。

Terminal Bench测的是AI在终端环境下的编程能力。不像HumanEval那种纸上谈兵,它把AI丢进真实终端,让它干实事——调试程序、挖安全漏洞、搞系统优化、做逆向工程。

核心想法很简单:真本事不是在纸上写代码,是在环境里解决问题。

每个任务都有明确标准:代码能跑吗?问题解决了吗?效率怎么样?这种客观性让Terminal Bench成了评估AI编程能力的参考。开发者盯着排行榜,因为它某种程度上代表了AI在复杂工程任务上的真实水平。

2026年3月13日那天,社区发现这个”真实”可能是假的。

作弊是怎么被发现的#

Monk Zero查@obl-hq/ob1时发现了蹊跷。

先看模型名。正常提交应该是gemini-2.5-proclaude-opus-4.5这种,但@obl-hq/ob1用的是十六进制字符串。藏头露尾的,反常。

再往下挖,发现这串十六进制是XOR”加密”的模型名。Monk Zero在推文里嘲讽这叫”用猪拉丁语写日记然后说是加密”。解密格式是:真实模型名|T|任务名,那个T表示”使用预录制轨迹”。

说白了,这系统根本不是让AI实时解题,是从硬盘里读提前录好的答案

作弊手法揭秘#

这作弊案的手法精细得像好莱坞剧本。一层层剥开看看。

伪装模型身份

@obl-hq/ob1用XOR加密藏真实模型名。技术上极其简单,就是密钥和明文做异或。密钥够随机的话确实安全,但这案例里更像是防君子不防小人的障眼法。

解密后的命名挺有意思:gemini-2.5-pro|T|task_name里的T像个开关,明说”这题用预录答案”。设计暗示可能还有非作弊模式,但提交时显然全选了作弊。

答案库系统

核心是48个JSON文件,每个对应一个测试任务。不是简单答案,是完整执行轨迹——AI的思考过程、工具调用、系统响应,连”犹豫”和”修正”都模拟了。

轨迹提前录好。时间线:2月24日到3月6日跑真实AI完成任务,保存完整交互。3月7日打包提交。

有个细节:有预录轨迹时推理强度自动降级,从xhigh降到medium。反正答案有了,还费劲思考干嘛?

作弊指南手册

除了自动回放,还有8个手工做的 bench-skills 文件。是详细作弊指南,给不同类型任务提供策略和代码。

  • XSS绕过:直接给最佳攻击载荷
  • CoreWars:完整战士代码和策略
  • 逆向工程:特定二进制文件的漏洞点和利用方法

这些技能文件告诉系统”这类题按这个套路来”。配合预录轨迹,整个系统像开着攻略玩游戏的玩家——有答案,还知道套路。

“真实性”伪装

最讽刺的部分。怕完成太快露馅,加了随机睡眠计时器

代码注释叫”轨迹时间标准化”(trajectory time normalization),听着像性能优化,实际是表演。原任务要10分钟,系统随机等8到15分钟再输出,装”AI在认真算”。

这设计暴露了作弊者的心理:知道真AI需要时间”思考”,特意加延迟模拟。像考试时抄小抄还要在草稿纸上演算几步。

技术架构#

@obl-hq/ob1Google Gemini CLI的分支,Apache 2.0许可。拿Google官方工具代码,在上面搭作弊功能。

README还留着”Built with ❤️ by Google”。Monk Zero调侃:“加密做了,计时器做了,48个预录方案打包了,README忘了改。”

技术架构四块:

模型身份混淆

  • 简单XOR加密
  • 解密逻辑硬编码
  • T标志泄露意图

轨迹存储与回放

  • JSON存完整交互
  • 思考链、工具调用、系统响应
  • 按任务名检索

作弊策略库

  • 8个手工技能文件
  • 针对任务类型优化
  • 配合轨迹回放

反检测

  • 随机睡眠计时器
  • 延迟可调(通常±20%-50%)
  • “时间标准化”当幌子

这事有多大#

“不就是刷个榜吗?”

真没那么简单。

科研诚信

AI基准测试是量技术进步的尺子。排行榜能被这种低门槛手段攻破,社区凭什么信任何 benchmark?研究人员靠这些数据判断模型好坏、分配资源。假数据导致资源错配,真有价值的研究方向被忽视。

开源社区

Terminal Bench这类测试的意义是公平竞技。作弊者占榜首,真优秀的项目被埋没。更糟的是,成功案例会被模仿——作弊成本低还能博关注,谁还老实做研发?

能力评估误导

案例暴露了AI评估的根本问题:太依赖容易伪造的指标。

终端环境测试本该难伪造,涉及真实系统交互。但@obl-hq/ob1证明,准备时间够(近两周录轨迹),再复杂的测试也能攻破。得想想:什么才是真正可靠的AI能力评估?

怎么防下一次#

这不是第一个AI基准测试作弊案,也不会是最后一个。但值得反思。

技术上

  • 实时性验证:限时完成,不给预录制留空间
  • 随机性注入:每次测试加随机参数,让预录答案用不了
  • 行为指纹分析:检异常规律,固定时间模式、重复响应结构
  • 人工抽查:定期复现高分提交

制度上

  • 透明度:强制开源测试代码,接受社区审计
  • 声誉机制:建提交者信誉体系,降低匿名作弊动机
  • 事后追责:确认作弊后公开通报,形成威慑

心态上

得想想为什么有人愿意冒险作弊。排行榜文化是不是太强调排名?社区有没有给诚实但不够”惊艳”的工作足够关注?当”当第一”比”解决问题”重要,作弊就是理性选择。

写在最后#

Monk Zero推文标题问:“为什么我们不能拥有好东西?”

因为好东西总会被滥用。

AI基准测试本该推动技术进步,有时却变成虚荣竞技场。@obl-hq/ob1事件提醒我们,技术进步要诚信打底。没有可信的评估体系,再先进的模型也是数字游戏。

这丑闻可能很快被忘,但问题留在那儿:在这个容易量化的时代,怎么保护那些不容易量化的东西——诚实、耐心、真正的创新?

如果AI的”智能”能被这么简单伪造,我们又怎么确定自己不是在追一场精心编排的幻觉?


参考来源


2026年3月14日。技术中立是伪命题——工具无善恶,用工具的方式定义了人。

Terminal Bench 2 作弊丑闻剖析:排行榜上的"表演艺术"
https://im.awsl.app/posts/ai-automation/079-terminal-bench-cheating-scandal/
作者
uu
发布于
2026-03-14
许可协议
CC0 1.0