今年 9 月,OpenAI 发了一个新模型—— OpenAI o1 模型。
这意味着,AI 的发展方向发生了重大变化,即从预训练所带来的“快速思考”,向基于强化学习的“慢速思考”发展。这一演变将解锁更多新的 AI 代理应用。
如何理解这个变化,成为所有 AI 行业从业者共同关心的话题。不久前,红杉资本发布了一篇文章,详细阐述了对 AI 转向推理层开发的看法以及未来趋势展望。
在这篇文章中,红杉资本分享了其对以下问题的思考:
模型强化推理能力,对 AI 市场的创始人意味着什么?对现有的软件公司有多大的影响?作为投资者,AI 行业的哪些领域是最值得投资的?
01 让 AI 真正学会推理
2024 年最重要的模型更新属于 OpenAI 的 o1,以前称为 Q*,也称为 Strawberry。这是第一个具备真正通用推理能力的大模型,而实现这一点靠的是推理时间计算。(推理时间计算是指在人工智能和机器学习中,通过增加额外的计算时间来优化模型在解决特定问题时的表现。)
以前,预训练模型是通过对大量数据的学习,进而实现后续内容的预测。这背后依赖于大量的模型训练时间,但这种推理能力很有限。
现在,通过推理时间计算,模型会在给你答复之前停下来思考,这需要在推理时进行更多的计算。“停下来思考”的部分就是推理。
02AlphaGo 和大模型
当模型停下思考时,它在做什么呢?
要回答这个问题,我们先来回顾一下 2016 年 3 月在首尔举行的活动。
AlphaGo 与传奇围棋大师李世石下棋,是深度学习历史上最具开创性的时刻之一。这不仅仅是一场人 AI 与人类的比赛——这让世界看到 AI 不仅会模仿,还会思考。
与大模型一样,AlphaGo 也经过了大量的预训练,可以模仿人类专家,其数据库包含来自之前游戏的大约 3000 万步以及更多的自我对弈。但 AlphaGo 不会提供来自预训练模型的下意识反应,而是会花时间停下来思考。
在推理时,模型会在各种潜在的未来情景中运行搜索或模拟,对这些情景进行评分,然后以具有最高预期值的情景(或答案)进行响应。AlphaGo 的时间越长,其表现就越好。在零推理时间计算的情况下,模型无法击败最优秀的人类玩家。
但随着推理时间的延长,AlphaGo 会越来越好,直到超越最优秀的人类玩家。回到大模型,复制 AlphaGo 的难点在于,构建价值函数或者说对答案进行评分的函数。
如果你是在下围棋,这事就更简单了,看谁赢就行了。(编程也同理)但是你应该怎么给一篇文章打分呢?这就是当前方法很难进行推理的原因。这也是为什么 Strawberry 在接近逻辑的领域(例如编码、数学、科学)相对较强,而在更开放和非结构化的领域(例如写作)不那么强大的原因。
Strawberry 的关键思想是,围绕模型生成的思维链进行强化学习。这很接近于人类的思考和推理方式。例如,o1 展示了在卡住时回溯的能力,这是扩展推理时间的突发属性。它还展示了以人类的方式思考问题的能力(例如,将球体上的点可视化以解决几何问题)和以新的方式思考问题的能力(例如,以人类不会的方式解决编程竞赛中的问题)。
研究团队正在努力提高模型的推理能力,他们正在研究许多新想法来推动推理时间计算(例如计算奖励函数的新方法、缩小生成器 / 验证器差距的新方法)。换句话说,深度强化学习又流行起来了,它正在实现一个全新的推理层。
03 系统 1 与系统 2 有何不同?
从预训练的本能反应(“系统 1 ”)到更深层次、深思熟虑的推理(“系统 2 ”)的飞跃是人工智能的下一个前沿。模型仅仅了解事物是不够的——它们还需要具备实时暂停、评估和推理决策的能力。
我们将预训练看作系统 1。无论模型是针对围棋的数百万步(AlphaGo)还是大模型进行预训练,其工作原理都是模仿。但模仿虽然很强大,但并不是真正的推理。因为它无法正确思考复杂的新情况,尤其是样本之外的情况。这恰恰就是系统 2 的优势所在,也是最新一波 AI 研究的重点。
对于许多任务来说,系统 1 已经足够了。比如,不丹的首都在哪,想是想不出来的,要么知道,要么不知道。快速、基于模式的回忆,在类似的任务上就很管用。
但当我们研究更复杂的问题时——比如数学或生物学上的突破——快速、本能的反应并不奏效。这些进步需要 AI 花更多时间进行更深入的思考,并具备创造性解决问题的能力。
04 新的扩展定律:推理竞赛已拉开帷幕
o1 论文中最重要的一个观点是,诞生了一条新的扩展定律。
预训练 LLM 遵循一个易于理解的扩展定律:在预训练模型上花费的计算和数据越多,模型性能就越好。o1 论文则为扩展计算带来了另一种可能:即给模型推理时间的越长,其推理效果就越好。
如果模型能够思考数小时、数天或数十年,会发生什么?我们会解决黎曼猜想吗?我们会回答阿西莫夫的最后一个问题吗?
这种转变将使我们从大规模预训练集群的世界走向推理云——可以根据任务的复杂性动态扩展计算的环境。
05 被证伪的两个预测
当 OpenAI、Anthropic、Google 和 Meta 扩展其推理层,并开发出越来越强大的推理机器时会发生什么?我们会有一个模型来统治它们吗?
生成式 AI 市场刚起步时,人们曾假设,一家单一的模型公司将变得无所不能,甚至还会吃掉 AI 应用产品的机会。但现在,这两个预测都是错误的。
首先,模型层竞争激烈,SOTA(最好技术或者模型)能力不断超越。有公司通过广泛领域的自我博弈找到持续自我改进的方法并取得突破,但目前我们还没有看到这方面的证据。但我们能够清楚看到模型竞争有多激烈?自上一个开发日以来,GPT-4 的 token 价格已下跌 98%。
其次,除了 ChatGPT 外,大部分模型很难在应用层面形成比较大的突破。
06 混乱的现实世界:定制认知架构
科学家计划和采取行动实现目标的方式,与软件工程师的工作方式截然不同,甚至不同公司的软件工程师情况也有所不同。
随着 AI 研究不断提升模型推理能力上限,我们仍然需要具体的应用落地。但通用模型很难实现在特定领域的具体落地。
输入认知架构,或者您的系统如何思考:接受用户输入并执行操作或生成响应的代码流和模型交互。
例如,在 Factory 的案例中,他们的每个“机器人”产品都具有自定义认知架构,可以模仿人类解决特定任务的思维方式,例如审查拉取请求或编写和执行迁移计划以将服务从一个后端更新到另一个后端。
Factory 机器人将分解所有依赖关系,提出相关的代码更改,添加单元测试并拉取人类进行审查。然后在批准后,在开发环境中对所有文件运行更改,如果所有测试都通过,则合并代码。就像人类可能会做的那样——在一组离散任务中,而不是一个通用的黑盒答案中。
07 应用层,或许是创业者的最佳选择
目前,基础模型固然厉害,但也有不少缺陷。比如,大模型无法处理黑匣子、幻觉等问题。或者,消费者面对大模型不知道问什么?这些都会是应用层的机会。
两年前,许多 AI 应用公司被嘲笑为“只是 GPT-3 上的包装器”。如今,这些包装器被证明是构建持久价值的唯一可靠方法之一。最初的“包装器”已经演变成“认知架构”。
应用层 AI 公司价值不仅仅是基础模型之上的 UI。更重要的是,它们拥有复杂的认知架构,包括多个基础模型,顶部有某种路由机制、用于 RAG 的矢量和 / 或图形数据库、确保合规性的护栏,以及模仿人类思考工作流程推理方式的应用程序逻辑。
08 服务即软件
云计算的本质是,软件即服务。这让软件产业变成了一个价值 3500 亿美元的机会。
到了 AI 时代,类似的机会同样出现。人工智能转型本质是服务即软件,即 AI 公司用 AI 应用替代劳动力。这意味着,AI 应用可能面临着价值数万亿美元的服务市场。
劳动力替代意味着什么?Sierra 就是一个很好的例子。B2C 公司将 Sierra(AI 客服公司)放在他们的网站上与客户交谈。用 AI 代理来解决客户所提出的问题,每完成一次服务获得相应的报酬。这与传统软件按“席位”付费的模式有很大区别。
这是许多 AI 公司所追求的目标。但不是所有公司都这么幸运,现在出现的另一个新兴模式是,先部署为副驾驶(人机交互),然后再迭代成完全自动化。GitHub Copilot 就是一个很好的例子。
09 新一代代理应用
随着生成式人工智能的推理能力不断增强,一类新的代理应用程序开始涌现。这些应用层公司是什么样子的?至少从目前看,这些公司看起来与云计算公司有很多不同:
云计算公司瞄准的是软件利润池,人工智能公司瞄准的是服务利润池。
云计算公司出售软件($/ 席位)。人工智能公司出售工作($/ 成果)
云计算公司喜欢自下而上,采用无摩擦分销模式。而人工智能公司则越来越多地采用自上而下,采用高接触、高信任的交付模式。
我们看到,这些新型代理应用正在知识经济的各个领域涌现。以下是一些示例。
Harvey: AI 律师
Glean: AI 工作助理
Factory:AI 软件工程师
Abridge:AI 医疗文书记录员
XBOW: AI 测试员
Sierra:AI 客服
通过降低提供这些服务的边际成本,这些代理应用程序正在扩展并创造新的市场。
以 XBOW 为例,XBOW 正在构建 AI “渗透测试员”。渗透测试是对计算机系统进行的模拟网络攻击,公司通过执行此测试来评估自己的安全系统。
在生成式 AI 出现之前,由于人工测试的成本很高,所以公司在个别情况下才能聘请渗透测试员。然而,XBOW 现在正在展示基于最新推理 LLM 构建的自动化渗透测试,效果可以与最熟练的人工渗透测试员相媲美。这扩大了渗透测试市场,并为各种规模的公司提供了持续渗透测试的可能性。
10 这对 SaaS 世界意味着什么?
现在很多人都关心一个问题:人工智能转型是否会摧毁 SaaS 公司吗?
之前由于 AI 能力绝大部分都来自模型,我们会觉得老牌 SaaS 公司受益于数据和分销方面的优势,会最终受益。初创公司的主要机会不是取代老牌软件公司——而是追逐可自动化的市场机会。
但现在,我们不再这么确定了,因为将模型能力转化成端到端业务解决方案需要大量的工程设计。那么,AI 企业会不会最终取代软件?我们可以从 Day.ai 的案例上看出一些端倪。
Day 是一款人工智能原生 CRM。此前,系统集成商通过配置 Salesforce 来满足客户的需求,赚取了数十亿美元。现在,Day 只需访问您的电子邮件和日历,并回答一页问卷,即可自动生成完全适合客户业务的 CRM。单靠这一点,Day 就已经吸引了很多的客户。
11 投资人应该投什么?
作为投资者,我们应该如何投资 AI 产业呢?以下是我们的简要分析。
基础设施:这已经是巨头的战场,更多是战略博弈的选择而非经济利益驱动,对于 VC 来说,这不是一个好的选择。
模型:这是巨头和金融投资者的领域。巨头正在用资产负债表换取损益表,投资的资金将以计算收入的形式回流到他们的云业务中。金融投资者则热衷于讨论 AI 的宏大叙述。虽然这些模型很厉害,团队也很强,但很难用微观经济学去理解。
开发工具和基础设施软件:对战略投资者价值很小,更适合 VC 参与。在云转型的时候,这个领域跑出了 15 家收入超过 10 亿美元的公司,AI 领域也会如此。
应用程序:这是最适合 VC 参与的领域。在云计算转型期间,大约有 20 家应用层公司成立,收入超过 10 亿美元。在移动互联网时候,又有大约 20 家公司成立。AI 时代大致也会如此。
12 结束语
在生成式人工智能的下一阶段,我们预计推理研发会逐渐影响到应用层,预计 AI 代理会变得更加强大和复杂。
回到研发层面,推理和推理时间计算在可见的未来里仍然是一个很重要的驱动因素。这是下一场 AI 竞赛的主题。但在特定领域,收集现实世界数据建立认知仍然很困难。因此,能够完成 AI 落地最后一公里的公司将有巨大的价值。
展望未来,多智能体系统(如 Factory 的机器人)可能会迎来更大的发展。当我们模拟了感知、推理和行动的过程,AI 可以用这种方式进行更多的探索,也许这就是通过 AGI 的正确道路。
文:林白
题图来自 Unsplash,基于 CC0 协议。