当前,关于“超人”人工智能(superhumanartificialintelligence)的讨论正变得愈发热烈。然而,或许只需要一点点“对抗性攻击”,那些可以轻松击败人类冠军的AI系统(如AlphaGo、KataGo等),便会变得不堪一击。
而且,这种脆弱性不仅限于围棋AI,也可能扩展到ChatGPT等聊天机器人背后的大语言模型。更关键的是,这一问题很难消除。
日前,来自FARAI和麻省理工学院(MIT)的研究团队在一项研究中揭示了AI本身的这一脆弱性。他们表示,想要构建始终优于人类智能水平的、鲁棒性很强的AI系统,可能比我们想象得要更加困难。
相关研究论文以“CanGoAIsbeadversariallyrobust?”为题,已发表在预印本网站arXiv上,尚未经过同行评审。
伊利诺伊大学计算机科学家HuanZhang指出:“这篇论文为如何实现建立人们可以信任的、强大的真实世界AI智能体这一宏伟目标打了一个大大的问号。”
MIT计算机科学家StephenCasper也表示:“这项研究提供了一些迄今为止最有力的证据,证明让高级AI模型按照预期方式鲁棒地运行是很困难的。”
AI“围棋冠军”不堪一击棋类游戏一直以来都是人类智力的重要考验,近年来也被作为AI系统智能化水平的“试金石”。在围棋中,两名玩家轮流将黑白棋子放在网格上,包围和吃掉对方的棋子。
此前,围棋AI系统KataGo因击败顶级人类棋手的能力而广受瞩目,随着人们对AI是否能真正超越人类智能的不断质疑,KataGo也成为人类和一些AI系统不断挑战的对象。
早在2022年,研究团队便通过训练对抗性AI机器人,发现尽管这些机器人总体上不是优秀的围棋选手,但它们能够找到并利用KataGo的特定弱点,经常性地击败KataGo。此外,人类也可以理解机器人的这些伎俩,并用来击败KataGo。
这究竟是一次偶然,还是这项研究成果揭示了KataGo的根本弱点,进而揭示了其他看似具有超人能力的AI系统的根本弱点?
为了验证这一猜想研究,他们使用对抗机器人测试了围棋AI遭受此类攻击的三种防御方法——位置对抗性训练、迭代对抗性训练以及更改网络架构,这些方法分别针对KataGo的已知漏洞进行了不同层面的改进与防御。
图|围棋对抗性攻击的三种防御策略,左图:位置对抗性训练;中间:迭代对抗性训练;右图:用视觉Transformer(ViT)替代卷积神经网络的训练(来源:论文)
第一种防御方法是KataGo开发人员在2022年攻击事件后已经部署的方法,与KataGo自学围棋的方法类似,他们给KataGo提供攻击所涉及的棋盘位置示例,让它自己下棋,来学习如何应对这些位置。他们发现,即使是这种升级版的KataGo,对抗型机器人也能学会击败它,胜率高达91%。
他们尝试的第二个防御策略是迭代对抗性训练,该方法模拟了一个持续的“军备竞赛”,在对抗性训练中不断引入新的攻击和防御策略。针对对抗机器人训练一个版本的KataGo,然后对更新后的KataGo训练攻击者,如此反复九次。尽管这种方法在一定程度上提升了KataGo的防御能力,但仍未能完全解决适应性攻击的问题,对手不断发现新的漏洞,最后一个升级的对抗性机器人在81%的情况下击败了KataGo。
研究表明,这些防御方法均未能起到有效作用,对抗性机器人依然能够找到KataGo的漏洞,并击败它们。具体来说,位置对抗性训练的KataGo在面对一种“送二收一”的策略时表现不佳,而迭代对抗性训练的KataGo则容易受到“打吃”攻击。
考虑到KataGo是基于卷积神经网络(CNN)设计的计算模型,研究人员怀疑,卷积神经网络可能过于关注局部细节,而忽略了全局路径。于是,在第三种防御策略中,他们使用视觉Transformer(ViT)替代卷积神经网络,从零开始训练了一个新的围棋AI,在一定程度上改变了AI的学习模式,但仍无法完全消除循环攻击的脆弱性,在78%的情况下还是被击败了。
对此,最早开发出KataGo的纽约计算机科学家DavidWu指出:“强大的围棋AI在平均表现上是超人类的,但在最糟糕的情况下并非如此。”
实现“超人”人工智能?没那么简单这项研究揭示了顶级围棋AI系统在对抗性策略下的脆弱性,对整个AI领域的安全性和可靠性提出了新的挑战。尽管KataGo在平均表现上优于人类,超人简直不堪一击?研究发现:等大模型也不行但从它在最坏情况下表现出的缺陷可以看出,构建真正稳定的AI系统依然任重道远。
研究人员通过三种针对围棋对抗性攻击的防御方法增加了KataGo的攻击难度,然而这些措施并未完全实现防御攻击,总能被以远少于训练对抗性AI所需的计算量成功攻击,这些防御措施的稳定性也没有达到人类的水平。
尽管如此,研究人员发现应对固定攻击的计算量较低,说明通过对大量攻击训练,围棋AI系统或许可以实现完全防御。
为实现这一目标,研究团队提出了两条互补方法:一是通过开发新的攻击算法来扩大攻击语料库,降低训练攻击方所需的计算量;二是通过提高对抗训练的样本效率,使被攻击方能够从有限的对抗策略中进行泛化。
此外,除了对抗训练之外,还有其他可以提高AI系统稳定性的方法,例如多智能体强化学习方案可能自动发现和消除循环攻击策略,或者通过改变威胁模型使用在线或有状态防御,动态更新模型。
研究结果表明,人类在构建稳定的AI系统方面仍然存在重大障碍,如果在围棋AI这一明确且封闭的领域无法实现鲁棒性,那么在更开放的现实世界应用中实现这一目标将更加困难。为了安全构建AI系统,未来的先进系统必须在设计之初就具备内在的鲁棒性。
这项研究不仅在围棋AI领域具有重要意义,也对其他“超人”人工智能应用领域提出了系统性研究的建议,尽管防御措施可以在一定程度上提高AI系统的鲁棒性,但要完全消除对抗性攻击的威胁仍然非常困难。