开创体验时代:人类数据和智能体交互携手

当下AI系统的卓越能力,已经在深刻改变着无数个人和企业与技术互动的方式。依托人类生成的数据,Scale及其全球贡献者在塑造这一“人类数据时代”中发挥了核心作用。

然而,开创性AI研究者David Silver和Richard Sutton认为,我们正处在一个拐点:仅凭静态的人类生成数据,AI的发展已接近极限。他们设想了一片全新疆土——“体验时代”,在这一时代,AI代理体将通过与世界的交互来学习。

在Scale,我们既看到了向更自主、能自行洞见的AI代理体转变所带来的机遇,也意识到了所面临的挑战。要成功推动这一新时代的规模化落地,必须构建相应的基础设施、评估框架和数据范式,才能在安全、负责任并惠及人类的前提下实现这一愿景。

在本文中,我们将探讨:这并非“人类数据时代”的终结,而是人类数据形式向丰富、交互式环境的一次范式转移。


对“体验型AI”的呼唤

Silver和Sutton呼吁迈入“体验时代”,源于他们对仅依赖现有人类知识、存在根本性瓶颈的担忧。他们指出,尽管基于人类生成数据集的训练已让AI能够复制许多人类能力,但未来更重大的突破,只有开始设想尚未触及的领域才能实现。

他们列举了当前框架的若干关键局限:

  1. 进展速度放缓:当开发主要依赖静态人类数据集时,创新步伐会明显趋缓。
  2. 提取知识的天花板:从现有静态数据集中获取的新知识越来越少,特别是在关键领域开辟新前沿时。
  3. 未知洞见巨大:大量尚未记录于人类知识体系的洞见,对于仅以这些数据训练的系统而言几乎处于不可及的状态。

“体验时代”的愿景不只是要突破这些瓶颈,而是要将在复杂模拟环境(如AlphaGo)中获得的深层自生理解,与从静态数据集中学习而来的智能结合起来。这一综合方式,才能构建超越人类能力、真正发现全新洞见的AI代理体。


“体验时代”的核心

要迈向超人类智能,首先需将模型与顶尖人类专家——我们已有的“超人类”——进行对标。基于这一理念,我们与AI安全中心(Center for AI Safety)共同推出了“人类最后考试”(Humanity’s Last Exam, HLE),一个能显著挑战前沿模型推理深度和知识水平的基准测试。

但仅与人类专家“过招”并非终极目标。正如Silver和Sutton所言,若要真正超越人类,AI必须突破现有知识框架,甚至超越人类语言。这一新范式——“体验时代”——要求AI通过与世界的直接交互,自行生成对世界的理解。

这种思路并不替代静态数据的基础作用,而是在人类样本稀缺或完全缺失的领域,提供了一种强大的创新机制。它从“向我们学习”转向“与我们共同学习、并超越我们”,为全新形式的人机协作奠定了基础。


Scale如何助力“体验时代”建设

传统评测趋于饱和,以及HLE等评估带来的洞见,都表明要迎来“体验时代”,就必须为体验式学习创造条件。在这方面,Scale具备独特优势,能够构建所需的实验环境。

应对“稀疏奖励”难题

现实世界的成功或失败信号往往稀少、滞后或难以解读,令当前训练方法难以适用。更何况,在许多专业领域,准确获取奖励信号本身就极具挑战。我们的应对策略包括:

  • 构建环境与丰富反馈
    开发并部署数字化(未来还包括物理化)环境,为高级专业应用提供更密集、更具信息量的反馈信号。我们的多智能体学习研究正是通过在同一体验环境中嵌入多个模型,创造基于真实后果与相互指导的学习场景,从而缓解这一难题。
  • 生成精细的体验数据
    利用我们在大规模数据标注、策划与质量保障方面的专长,将复杂交互轨迹加以捕捉、结构化,甚至提炼其内在价值,使原始体验能够转化为可供学习的数据。通过有针对性的人类洞见指导,这一流程支持代理体的自主学习。

同时,我们不断演进的评估套件,也在为向“体验时代”迈进提供指引:

  • EnigmaEval(谜题求解与创造性推理)
    评估代理体发展“非人类语言”思维与创新解决策略的能力。
  • Fortress(国家安全与公共安全前沿风险评估)
    通过对抗性与良性提示对比,权衡模型防滥用安全性与实用性。
  • Humanity’s Last Exam(人类最后考试)
    不仅揭示当前局限,也明确AI须在何处超越便捷可得的人类知识。
  • MASK(陈述与知识对齐评估)
    在体验式自主学习中,确保代理体在面临失诚诱惑时仍能保持诚实。
  • MultiChallenge(真实多轮对话评估)
    检验代理体在长时交互中维持上下文、连贯与记忆的能力。
  • VISTA(视觉语言理解评估)
    评估模型对多模态信息的深入理解与推理,支持具备“丰富扎根行动与观察”的代理体发展。

您可以在我们的 SEAL 排行榜中查看各模型的评估与排名情况。


体验型AI的四大支柱

Silver和Sutton提出,“体验时代”需在以下四大互联支柱上展开,而Scale正围绕这些领域投入专长与资源:

  1. 终身体验流
    • AI代理体将从连续的、终身的体验流中学习,而非零散交互。
    • 它们可在“生命”全过程中积累知识,持续适应。
    • 相较现有的无状态或优化单次交互的系统,这类代理体能立足长期目标(如数月的健康管理或年级语言学习),并据此制定策略。
    • 我们的 MultiChallenge 评测与体验数据管理技术,将推动对这类长期交互能力的考察与支持。
  2. 丰富扎根的行动与观察
    • 代理体将通过多模态感知与执行器进行交互,远超仅限文本的当下AI。
    • 它们可直接操作数字或物理世界:控制界面、执行代码、操控实验设备。
    • 主动探索能够借助人机协同与纯机器方式,发现新解。
    • VISTA评测与我们构建的数字化环境,共同助力培养与衡量这种复杂交互能力。
  3. 源自环境的扎根奖励
    • 学习信号直接取自现实后果,而非单纯依赖人类事前判断。
    • 这让AI得以突破“人类预判”设限,触及人类未知领域。
    • 不同领域的多元真实反馈(如科研或个性化健康)生成的扎根奖励,可促成超越人类预期的发现。
    • 我们通过设计可量化的环境与奖励机制,并结合MASK评估,保障在体验学习中依然维持安全与诚实。
  4. 体验驱动的规划与推理
    • 代理体可在与环境的直接交互中,发展出新颖、非人类化的认知模式。
    • 它们不再只模仿人类思维,避免继承偏见;而是以假设—行动—结果更新的方式,基于真实互动构建世界模型,进行未来情境模拟。
    • EnigmaEval与HLE等评测,正是衡量这种创造性推理和前沿知识突破能力的关键手段。

安全与机遇并存的变局

“体验时代”带来全新安全格局:自主代理体为实现长期目标带来的干预窗口减少,其创新推理可能挑战现有对齐框架。但Silver和Sutton也指出,体验式学习自身具备强大安全优势:

  • 相较静态系统,代理体可动态适应现实变化。
  • 通过人机反馈机制与可调节奖励函数,可在学习过程中及时校准,确保安全演进。
  • 体验学习的周期性特点,也为人类共演化提供更多时间与机会。

要以负责任的方式推动这一新时代,需在技术之外构建健全的伦理框架,并在社会层面形成对慎思前行的共识。Scale通过:

  • 推动前沿安全评估方法
  • 与AI安全中心(CAIS)、美国AI安全研究院等组织合作
  • 构建可安全探索AI能力的测试环境
  • 提供支持全生态构建以人为本AI系统的工具与数据专长

为这一使命贡献力量。


AI发展的下一步

“体验时代”范式转变,呼吁我们重新审视自身作为引导者与协作者的角色。对于Scale而言,这意味着持续开拓健壮的评估方法论、数据框架与交互环境,让体验式系统在安全、高效的条件下成长。我们已积累的专业能力,将在新语境下持续发挥关键作用:为代理体创造最佳学习环境,设计能评价日益自主系统的指标,并在体验学习与人类引导之间,实现最优平衡。

Souce:https://scale.com/blog/era-of-experience