到底什么是端到端,蔚来任少卿给我们做了一场通俗易懂的普及
出品丨虎嗅汽车组
作者丨李铭扬
头图来源丨蔚来发布会(蔚来智能驾驶副总裁任少卿)
7月27号,蔚来举办了一场技术发布会,有芯片亮相,也有整车操作系统发布,有NioPhone的正式上市,也有智能驾驶世界模型NWM的展示。发布会后的第二天,虎嗅汽车来到蔚来位于上海漕河泾的办公室,和蔚来智能驾驶副总裁任少卿聊了两个小时。
除了最近热门的端到端技术以外,任少卿从自动驾驶的本质出发,分享了很多源头上的思考。以下为虎嗅汽车与任少卿的对话:
端到端可以类比为“一体式压铸机”
虎嗅汽车:去年NIOIN发布会就展示了端到端技术,而今年发布了NWM世界模型,那这个模型具体是怎么搭建的?意义何在?
任少卿:我觉得解释这些问题之前,可能要先说一下,为什么会有端到端这件事。因为我是做智能驾驶行业的,就发现行业里所有人都在说端到端。但如果你换一个别的行业就会发现,没有人说这个事。比如说机器人行业,就没有人讲这个事对吧,因为机器人必然是端到端,端到端的本质就是我用一个模型去解决一个问题嘛。
那为什么自动驾驶有端到端和非端到端的问题呢?因为智能驾驶本身比AI开发得早,很多年前的模型还没有现在这么成熟,一个模型解决不了这么复杂的问题。举个例子:就和流水线造车一样,过去造一个车尾部的铸造件,因为没有那么大的一体压铸机,那就把它拆成一个个零件。先做一个零件A,然后再做零件B,最后再把A和B拼起来。智能驾驶也一样,过去如果没有办法把这个复杂的问题一次性解决,那我们就把它变成了流水线,变成了一个一个工序。但就像压铸机一样,你就要定义,A和B如何拼接起来?非端到端就是这个原理。
那为什么现在又要做端到端呢?其实跟压铸机也很像,现在有能力做成一体式的了。过去分成两个件,其实会产生一些问题,比如说中间有接口,其实从铸造的角度来说,你接口的强度就没有一体压铸的那么强,还会有额外的损耗。那从模型的角度是什么呢?你如果有接口,这个接口就要定义得相对更清晰。一体式压铸,不是只把零部件压上就结束了,还要定义接口有几个焊点。模型大概意思也是这样,我要定义两个部分之间有多少个“焊点”,这个过程中实际就会造成信息的损失,压铸的话就是造成强度的损失,模型上也会造成信息的损失。
虎嗅汽车:信息损失具体是什么?又会造成什么影响?
任少卿:什么叫信息的损失呢,举个例子,一个最简单的开车场景下,智能驾驶的工作逻辑是怎么样的呢?前方遇到一辆车。首先要有一个感知的模块,这个感知的模块要定义前面这辆车,那怎么描述它的位置、速度?最简单的方式大家都能理解,就是画个框,然后有距离、长宽高、速度。第二步再写一个规划的模块,比如说当前方车辆距离我只有10米时,如果速度比我低,那我就要减速制动了,大概是这个逻辑。
但实际研发时,一定比上述描述要复杂得多,当视线足够清晰也就是你能看清前方的时候,这件事情可能问题不大。但如果遇上下雨天气,实际上你也看不清楚前面的车到底距离有多远,可能是5米,也可能是10米,此时一定要定义模型给出个结果,那它怎么给呢?可能给个平均值或者给个中位数,也许是7米。如果实际距离是5米,但此时可能就离前车很近,很不安全。而如果实际距离是10米,那就造成跟车距离很长,影响体验。这里面,很多都是不确定性的信息。
位置的一阶量距离,位置的二阶量速度,位置的三阶量加速度,这些不确定因素还会叠加起来,高阶量因素从简单统计上来说,没有办法描述,所以就产生了信息流失。而非端到端的中间需要有人工的处理。就跟前面举例的铸造件一样,中间两个件可能要靠个机器人或靠个人把它焊起来,这个过程中就产生了额外的工序和人工消耗。放在制造业来说,倒还好,可能工人培训一段时间后,比较容易把产能提升上去。但是自动驾驶算法需要的算法工程师,本身很难规模化。
所以会有这么两个问题,就是非端到端,第一有信息损失,第二个要加人工处理的逻辑在里面,到底什么是端到端,蔚来任少卿给我们做了一场通俗易懂的普及整体的开发效率就会降低。如果是AEB的问题,处理一些标准case还好。但如果是真实场景,就会有无穷无尽这种case,人工根本处理不过来。
自动驾驶很多年前没有能力去做一个模型,所以做了这个流程的拆分,因为做了流程的拆分,所以引入刚才第一个信息损失的问题。第二个难点,就是解决人员去做针对case的开发,很难规模化,分工冲突就是问题。而到了最近这几年,模型的能力也变强了,那大家就想说,当时因为模型能力不够,所以有了这些历史的包袱,现在可以扔了。
比如现在很多其他科技领域的项目,上来就是一个端到端,因为能用一个模型去解决一个事情,没有什么比这个更fancy了。端到端和非端到端,本质的差异和逻辑,就是这样。
世界模型的本质:在四维时空里高效安全运动
虎嗅汽车:我们体验了最新版本的智能驾驶,升级之后跟车距离会调得非常长,会影响用户实际体验。蔚来基于一个怎样的考虑出发来这样设计,是由研发同事定义,还是产品同事定义的?
任少卿:每个版本都有微小的变化,但每个人的感觉其实差别会很大。比如说我们感觉可能就没什么特别大的变化,那有些用户就比较敏感一些。实际上现在也是数据驱动的去做迭代,数据驱动之后会有一些微改,基本逻辑就是传达这个数据。但我们也在不停地在加新的数据,每一个版本出来可能都会有些场景进行微调。
过去的智能驾驶,都是固定的逻辑,其实比较容易。前车是什么速度距离,我就保持多少速度和距离。无论什么场景,都是很机械的反应。
现在的做法其实是motionplan,数据驱动,丢进去各种各样的场景,让它去学习对于距离还有速度的掌控。我们会从中挑开得比较好的专业数据,把数据放进去让模型继续去学。但某种情况下,不同的场景可能体现的结果差距就多了。可能周围车多一点,就跟得近一点,周围车少一点,就能跟远一点。所以这个过程中,数据还会持续往里加,持续调优。
虎嗅汽车:NIOIN展示这个世界模型,可能是基于前三秒去想象未来两分钟发生的事情,你怎么能够确定他思考出来或想象出来的东西是合理的?
任少卿:关于预测,传统的方法其实有很多种,第一种就是短时间预测,比如我输出一个接下来几秒钟的可能轨迹。就像我们的模型里面,最后输出一个规划轨迹,其他车也输出一个预测轨迹。这个模型要解决的,就是在当前时间点,自己的车在接下来3秒钟或者7秒钟怎么开。其他的车接下来3秒钟或者7秒钟怎么开。但它是一个独立时刻,在某种程度上,就只有这个独立时刻的信息。但现在我们希望能够推演的更长,而且希望推演的这个过程是有交互的。
比如说其他车,我预测它有可能cutin(切入变道),如果它cutin的话我就变道,如果它不cutin,我就不变道,就会有这样一些交互的逻辑。实际上,现在有两种做法去做这些交互和预测。第一种做法是我们去年做的,跟下棋一样,你可以理解成那个AlphaGo。它的逻辑就是,如果我的白子落这,(对面)黑子落这,那我下一步白子再落哪,它黑子再落哪。我下一步落白子有200种可能性,它黑子也有200种可能性。如果都看未来三步棋,就有200*200*200种可能,这是第一种方式。
另外一种,就是期望模型自己去学习弈棋能力。刚才说的第一种点,你自己想200种可能性,别人再想200种可能性,这相乘起来是4万,但其实这4万种可能性里面,有绝大多数是根本不可能存在的。所以4万种可能性就要把它压掉,把99%的可能都干掉。这实际上是一个收缩的过程,有一个树分枝的过程,然后有一个砍树枝的过程,接着有个再分枝然后再砍树枝的过程,这两件事情让模型一起做了。那我们说模型做这个想象和砍树枝的过程,就是要模型得想得对,想得合理,把那些不合理的干掉。
还有一点我们想分享的就是:我们在城区里面开车往往都会遇到很有意思的事情,大家都知道有绿波带这个东西。连续碰到两个红灯之后,当你看到前方第三个红灯的时候,起步就不会开那么快了。因为开快了,一脚油门上去,然后你还得一脚刹车下来,自己给自己找罪受。目前还没有任何一个自动驾驶的算法可以做到这种长时间预测(未必是预测红灯,也可能是前方出现的未知拥堵),这里需要一个持续几分钟的逻辑。那怎么让模型干,这就需要拟人性。
图片来源:蔚来发布会,任少卿
虎嗅汽车:世界模型展示的更多是我们观察它的一个过程,但是怎么去用人工干预去训练它?
任少卿:回到世界模型这个训练过程,先说我们希望他干嘛?第一个他能想象,第二个他能推演。关于推演,新手一开始学开车的时候,从一个辅路进来,那离前面的路口可能有100米,但是要左转,需要横跨四个车道。老司机的反应就是直接开过去得了,但新手一定会思考很多:后面的车速快不快,这么过去行不行?能不能变道?这就是推演的过程。
那模型也需要这么做,只是现在模型用比较显性的方式,给大家展现了这个过程。前面说的端到端,非端到端,这都是局限于自动驾驶这一件事情上。但我想说:世界模型不局限于自动驾驶,我们实际上就想让一个模型,它无论是开车也好,还是一个机器狗在工厂里溜达也好,还是一个机器人在家里干活也好。实际上就是希望有一个模型,具备通用能力,去学会怎么在真实的四维时空里面去高效、安全地运动。
自动驾驶的终极追求:实质性减少交通事故
虎嗅汽车:李斌接受采访的时候,讲了Robotaxi这个商业模式不是那么makesense。在他看来,自动驾驶更大的意义应该是两点:让驾驶更安全、更加舒适。你怎么看自动驾驶的终极形态和商业化落地?
任少卿:对,我们很早就认定了自动驾驶真正的两个价值:第一个是解放精力,第二是减少事故。就像你说的,第一个是让人开得更轻松,第二个是开得更安全。
这两点,都需要有新的价值来支撑,开得更轻松的价值,就是说我城区开得更好,当然这个对于宣传口来说,其实也比较难传播。所以解放精力这个事和开得更轻松这事,可能就是接下来的L3智能驾驶更能体现出来。
开得更安全这个角度,就是减少事故。之前大家都是各种发小作文发视频,说白了发了那么多视频,那真实案例到底怎么样?demo肯定都能做,都能找出来好的视频。但我觉得关于安全,我们自己的追求一定是实质性减少交通事故。什么叫实质性减少事故?比如说,我们几十万车主,去年事故率降低了70%,全量的话,今年要降到比如说80%到90%。这个数据是要有solid的,能被证明的数据。
虎嗅汽车:你们有对事故的类型做一些分析和分类吗?
任少卿:从去年就开始,我们已经详细地去做事故的分析,这不是一件容易的事。首先,第一个事情是:你想知道事故细节其实不容易,我们有气囊报警提示,但是气囊报警只占所有事故的0.3%。第二个是:我们去做IMU的检测,座舱不是有那个自动传感器,车如果产生撞击,那我去看看它是不是事故。但传感器监测,也只能获取15%的事故数据,还有85%的事故你不知道。IMU检测传感器需要有一个阈值,不能说人在车上踩一脚产生震动,我们就拿出来看一看。所以我们把最新的OCC感知加进去,这个能把事故监测提升到95%以上。
首先得先知道事故的发生,第二步要知道事故的类型,我们实际能对所有全量的事故去分析类型。第三步当分析完事故类型后,需要判断它的损伤有多大,这里又包括单方事故损失和三方事故损失。
有了这些系列分析后,我们才知道还需要做哪些功能,怎么能实质性地减少事故?实际上,最新版本的智能安全辅助功能上线后,我们从保险端数据来看,事故已经往下走了。当然目前时间还比较短,我们会累计足够多的数据后,再跟大家说这个具体数字。这就是我们想做的事,必须看到群体的事故报险数在往下走。关于驾驶安全这个事,我们自己的认知就是:大家要拿出实际数据,你到底减少了多少事故。
智驾领域的玩家会逐渐收敛
虎嗅汽车:蔚来这家公司,芯片、操作系统、自动驾驶等等很多事情都自研。在你看来,自动驾驶时代,OEM和Tier1(一级供应商)之间的关系会被重构吗?到底是每家OEM全都自研,还是多数去依赖Tier1,还是这两种方式兼而有之?
任少卿:短期内可能会是最后一种,对于自动驾驶的研发,有的case需要1,000小时、1万小时的测试。作为一级供应商,肯定不如车企更容易搞到这么多辆车,我们可以让量产车去反馈问题。而智驾的供应商几乎没有拿到最新数据,即使最大的几个公司也一样,这里就会有它的瓶颈在。而智驾的研发越往后,越不可逆转的趋势就是数据化,数据越多,越能产生新的体验。
其实对于主动安全的开发也一样,100万公里的测试很正常,一公里三五块钱的成本也很正常,这都算比较低的,在国外更要高很多。所有这些数据,还要上传到云端硬盘保存,又是一笔很大的成本。所以很多传统的主动安全供应商,是没有更新逻辑的,就是因为策略成本太高。最后就只做标准场景,多余的场景别做,做了没法验证,没法迭代。其实这个过程中,实质性的事故还是没有减少。
我还想分享一个点就是:中国车企今后想做全球化,技术含量越来越高,数据要求越多,其实成本也会越来越高
,不见得会有这么多玩家在智能驾驶这个领域了。我认为智驾这个领域肯定是要相对更规模化,然后要收敛,只是说最后收敛到什么程度。最后比拼的是:大家在新的基于模型、基于数据的这种范式下,谁能跑得更快、做得更好、成本更低,最后逐渐整合。
虎嗅汽车:对于能源战略,蔚来开放换电联盟给其他车企。蔚来的智驾方案,以后也会考虑类似的策略开放给其他玩家吗?
任少卿:我觉得会有这个过程,如果有主机厂对我们的新方案感兴趣,我们其实是有多套方案的。4orin芯片,单orin芯片的,纯视觉做城区等等方案。单orin纯视觉做城区的方案,应该目前市面也没有,我们会是第一个。那相对来说,性价比就比较高,后面我们还会有神玑NX9031。
我为什么愿意做这个事?回到前面说的,自动驾驶一定会向大数据驱动发展,有更多的车,有更好的数据闭环,那你就有更好的竞争优势。基于蔚来体系,我们的数据闭环绝对是全球顶级,那就可以去赋能更多车型。