哈佛教授发文警告:我们现在就需要控制智能体了
来源:学术头条
【编者按】智能体的本质是帮人类用好人工智能(AI)。今年上半年,AI著名学者、斯坦福大学教授吴恩达指出,智能体工作流将在今年推动AI取得巨大进步,甚至可能超过下一代基础模型。
智能体具有三大特质:智能体可以执行复杂任务、与外部世界互动,并无限期地运行。然而,当智能体形成数百万量级的庞大生态时,它们的行为可能不受控制,进而对人类社会产生重大危害。
近日,哈佛大学法学院教授、《互联网的未来》作者JonathanZittrain在TheAtlantic杂志上发文称,我们应该立即对智能体的行为进行规范,并改进现有互联网标准,从而更好地控制智能体,防止它们失控。
此外,他还认为,适当的标准制定和监管措施可以在促进创新与确保安全之间找到平衡。
学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:
2010年,在ChatGPT和Claude以及所有其他侃侃而谈的对话AI模型兴起之前,一群机器人在纳斯达克和其他证券交易所短暂地抹去了1万亿美元的价值。为弄清楚发生了什么、为什么会发生以及如何防止再次发生,美国证券交易委员会(SecuritiesandExchangeCommission)进行了长时间的调查,最后将此事件归咎于高频交易算法——它们以出人意料的方式来回买卖合约。
这一被称为“闪电崩盘”(flashcrash)的事件相对于未来的情况可能显得微不足道。这是因为,即使在所有关于AI的炒作中,一个迫在眉睫的部分仍未得到充分关注——智能体。智能体是代表人类独立行动的AI。正如2010年的闪电崩盘那样,自动化机器人多年来一直在使用。但大语言模型(LLM)现在可以将任何人表达的普通语言目标翻译成计算机可解释和可执行的具体指令——不仅限于证券交易等专业领域,还包括广泛的数字和物理世界。这些智能体难以理解、评估或对抗,一旦释放,它们可能会无限期地运行。
尽管今天人们对AI的安全(包括潜在的生存风险)感到担忧,但对这些新兴智能体并没有普遍的警惕或相应的监管。曾有关于AI被赋予(或自己设定)一个任意且看似无害的目标(如制造尽可能多的回形针)而导致灾难的思想实验,因为它会将人类的所有资源都转向这个目标。但在面对一个假想的专注于单一目标的超级智能之前,我们必须关注那些由智能体引发的更紧迫的问题。事情可能会搞砸,要么是由于那些让它们开始的人的恶意,要么是偶然地被委托使用一些错误的词语。例如,加拿大航空公司最近经历了后者,当时它为客户服务部署了一个聊天机器人,提示其要提供帮助,并允许其访问加拿大航空公司网站,从而回答客户问题。该机器人很乐意地解释了一个比航空公司实际政策更加慷慨的丧亲票价政策。加拿大航空公司试图否认机器人的承诺,但失败了:一个仲裁机构裁定客户应得到赔偿。
今天的智能体远不止是一个典型的聊天机器人,它们具有三种独特的特质。首先,它们可以被赋予一个高级别甚至模糊的目标,并独立采取步骤,哈佛教授发文警告:我们现在就需要控制智能体了通过自己的研究或工作来实现这个目标。例如,一年前,一位技术人员开发了一种可以为他订购披萨的AI。他借助于OpenAI等公司开发的软件工具,创建了一个可以指挥其他AI的“高级别AI”。这个高级别AI被赋予了一个目标——通过语音从给定的电话号码订购一份意大利辣香肠披萨——然后它开始创建自己的任务列表,并开发出执行这些任务的不同版本,包括优先考虑列表中的不同步骤,并生成一个能够使用文本转语音转换器拨打电话的版本。于是,AI成功地找到了本地披萨店并下了订单。
这展示了智能体的第二个特质,除了做计划实现目标之外:它们可以与外部世界互动,自如地使用不同的软件工具,就像你打开Excel或在浏览网页的同时下一个DoorDash订单一样。在OpenAI等公司的努力下,生成式AI模型可以从外部世界获取信息,进而影响外部世界。正如OpenAI所说,你可以“将GPTs连接到数据库,插入到电子邮件中,或使它们成为你的购物助手。例如,你可以整合旅游列表数据库,连接用户的电子邮件收件箱,或促进电子商务订单。”智能体还可以接收和花费资金。
这种不仅与我们交谈,还在现实世界中行动的AI的常规化,是数字与模拟、比特与原子之间跨越血脑屏障的一步。这应该引起我们的警觉。
一个非AI的例子突然出现在我的脑海中,这是一个未来可能出现的邪恶路线图。去年,一名男子在哈佛操场外放置了一个显眼的装有电线和锁箱的袋子。哈佛警方随后接到一个经过伪装的声音的电话,警告称这是校园内的三个炸弹之一,如果学校不向一个难以追踪的加密货币地址转账,它们很快就会爆炸。经过调查,警察们发现,袋子是无害的,这个威胁是一个恶作剧。
当警方确认并逮捕了放置袋子的男子时,发现他是响应Craigslist上的一个广告,该广告提供金钱让他组装并带这些物品到校园。发布这个广告并向哈佛发出威胁电话的人却从未被找到。放置窃听器的男子仅因藏匿并删除一些可能的罪证短信而认罪,并被判处缓刑,因为当局相信他不是阴谋的发起者。他不知道自己参与了一场敲诈阴谋。
这个特定事件可能没有涉及AI,但很容易想象,很快就可以使用一个智能体来引诱一个人遵循哈佛敲诈案中的每一个步骤,只需最少的提示和指导。更令人担忧的是,这种威胁很容易扩展到远超过单个恶意者可以单独应对的范围;想象一下,哈佛阴谋背后的人能够在数百或数千个城镇中同时实施这一计划。行为不一定要像炸弹威胁那样戏剧化。它可以只是监视某个人是否加入社交媒体或求职网站,并立即不厌其烦地发布回复和评论,诋毁他们。
这揭示了智能体的第三个特质:它们可以无限期地运行,允许人类操作员“设置后便不再操心”。智能体可能是手工编码的,或由提供服务的公司支持,就像公墓提供永久墓地护理,或银行提供数十年的资金管理一样。或者,这些智能体可能运行在分布于成千上万台计算机上的匿名计算资源上,这些计算机的所有者由于设计上的原因,对运行的内容一无所知——同时,他们还可以因为提供计算能力而获得报酬。
问题在于,AI可能会继续运行,远超出任何初始的有用性。随着环境的变化,我们根本无法知道哪些看似消失的智能体可能会继续存在。由于没有框架来识别它们是什么、是谁设置的、如何以及在什么权限下关闭它们,智能体可能最终会像太空垃圾一样:卫星被送入轨道后被遗忘。不仅有可能与现役卫星发生一次性碰撞,而且还可能发生碰撞的连锁反应:一次碰撞的碎片会引发进一步的碰撞,以此类推,形成一个可能无法逾越的碎片屏障,阻碍未来的航天器发射。
如果智能体脱离,它们最终可能会在一个与最初启动它们时完全不同的世界中运行——毕竟,那将是一个充满智能体的世界。它们可能会以不可预见的方式相互作用,就像2010年闪电崩盘事件那样。在那种情况下,机器人是由人类创建的,但在意外情况下表现出了奇怪的行为。在这里,设定为翻译模糊目标的智能体也可能会选择错误的方法来实现它们:一个让机器人“帮助我应付这无聊的课”的学生可能无意中生成了一个炸弹威胁电话,因为AI试图增添一些刺激。这是一个更大现象的例子,称为奖励黑客行为(rewardhacking),即AI模型和系统在缺乏关键背景的情况下,响应某些激励或优化某些目标,只捕捉到了目标的字面意思,但没有理解目标的精神实质。
即使没有碰撞,想象一下,一个智能体可能被委托设立、宣传和兑现对某人私人信息的悬赏,无论何时何地出现。一个智能体可以在多年后兑现当时冲动的怨恨——君子报仇十年不晚,而智能体可以一直记住这一仇恨。
其中许多描述仍然是推测性的。智能体尚未流行起来,而根据其本质,很难知道它们将如何被使用,或帮助提供它们的公司将实施哪些保护措施。智能体技术,像现代技术的许多其他方面一样,可能会经历两个阶段:为时尚早,无法判断和为时已晚,无法采取任何措施。
在这种情况下,我们应该寻找成本低、相对容易达成一致且不会造成负担的干预措施。耶鲁法学院的IanAyres和JackBalkin是开始研究我们如何最好地分类智能体、并考虑其行为的法律学者之一。在加拿大航空公司案例中,如果有这些分类研究可能会有所帮助,当时法庭对航空公司所称的“聊天机器人是一个独立的法律实体,负责自己的行为”的论点持怀疑态度。评估由智能体驱动的行为尤为重要,其性质取决于对行为者意图的评估。假设等待攻击受害者社交媒体帖子智能体不仅诋毁该人,还威胁他们。Ayres和Balkin指出,最高法院最近裁定,将真正的威胁定为犯罪需要威胁者主观上理解他们是在引发恐惧。回应无思考智能体发出威胁时,需要不同的法律方法沿着AI供应链上下来进行。
技术干预可以帮助解决出现的任何法律差异。去年,OpenAI的研究人员在一篇论文中记录了一些智能体的危害。他们提出了运行AI机器人的服务器必须被识别的可能性,还有人努力描述其运作方式。
但我们也可以考虑改进现有的互联网标准来帮助管理这种情况。数据已经通过“数据包”在网上分发,这些数据包带有发送者和接收者的网络地址标签。这些标签通常可以被任何人读取,即使信息本身是加密的。应该在数据包的数字表格上设置一个新的特殊空白,以指示数据包是由机器人或智能体生成的,或许还可以指明其创建时间和创建者信息——就像车牌可以被用来追踪汽车的所有者,而不会向旁人透露其身份。
在互联网协议中允许这样的标签将给软件设计师和用户提供使用它们的机会,也将允许像DoorDash和Domino’s等应用程序背后的公司决定是否要将人类下的20个披萨订单与由机器人下的订单区别对待。尽管任何这样的系统都可能被规避,监管机构可以帮助鼓励采用。例如,如果智能体的设计者和提供者决定给其智能体的在线活动打上标签,可以为他们因其智能体造成的损害设定赔偿上限。
互联网路由提供了进一步的启示。这没有互联网的主地图,因为它是为任何人设计的,不是通过一个中央交换机,而是通过与任何已经在线的人连接。因此,形成的网络依赖于路由器——中转站——它们可以彼此交流所看到的近距离和远距离的情况。这样,一个数据包可以从一个路由器传递到另一个路由器,直到到达目的地。然而,这确实留下了这样一种可能性,即由于错误或恶意,数据包可能最终以自己的形式在永恒的轨道上传递,在路由器之间永远传递。这就是为什么大多数数据包有一个“生存时间”,一个显示它们从一个路由器跳到另一个路由器次数的数字。计数器可能从64开始,然后每通过一个路由器减一。当到达零时,它将消失,即使尚未到达目的地。
智能体也应该有一种标准化的方式来结束:有多少行动,多少时间,多少影响,符合他们最初的目的。也许那些设计为永久存在或产生重大影响的智能体应该接受更多的审查和评估——或被要求有一个“车牌”——而更简单的智能体则不需要,就像自行车和滑板车不需要车牌,而汽车需要,拖挂卡车需要更多的手续。这些干预措施不那么关注AI模型在实验室内天生具备的能力,而更多地关注智能体的区别:它们在现实世界中行动,即使其行为在网络上表现出来。
现代技术的迅猛发展,容易让我们认为必须在自由市场和严厉监管之间做出选择——创新与停滞之间的选择。但事实并非如此。正确的标准制定和监管措施可以使新技术安全到足以被普遍采用——包括允许市场参与者更谨慎地决定如何相互互动以及与客户互动的方式。
在这种情况下,“为时尚早”是我们总结的好时机,并在深层次上维持我们的自主权。我们需要坐在驾驶座上,而不是被一个“隐形司机”所控制。这位“隐形司机”可能基于我们难以理解且不断变化的动机行事,或受到那些在空间和时间上都与我们相隔甚远的人的意图影响。
原文作者:
JonathanZittrain,哈佛大学法学院国际法教授、哈佛大学肯尼迪政府学院教授、哈佛大学工程与应用科学学院计算机科学教授、哈佛大学伯克曼互联网与社会研究中心联合创始人,《互联网的未来》一书的作者。
原文链接:
https://www.theatlantic.com/technology/archive/2024/07/ai-agents-safety-risks/678864/
声明:本文版权归原作者及原出处所有,内容为作者观点,并不代表本公众号赞同其观点及对其真实性负责。如涉及版权等问题,请及时与我们联系,我们立即更正或删除相关内容。本公众号拥有对此声明的最终解释权。