马斯克对特斯拉机器人的进展相当满意,他说虽然很难,但一定会比特斯拉的车更便宜,要服务于人类生活和经济,成本和售价要瞄准2万美元(14万元)的标准去量产和商用。
在最后的问答中,马斯克还给出了时间表:3年量产,5年商用。
总之,特斯拉的AI Day在经历延期之后,果然不负众望,国内十一假期和国外周五夜晚都没能阻挡热情,数万人在线实时观看。
而且马斯克家的擎天柱机器人一登场,立马就让不少网友感慨:相比之下,XX家的XX就是个遥控玩具而已呀。
擎天柱机器人,究竟有何不同?特斯拉AI Day上,又分享了哪些自动驾驶和芯片、超算方面的进展?
智能车参考,带你一文看尽。
擎天柱首次登场,自己走上台,向观众挥手。
还跳了一段马斯克最喜欢的举手舞。
动作还比较生涩,但这已经是目前完成度最高的AI人形机器人了。
波士顿动力?
马斯克特意强调了擎天柱是第一个没有外部稳定辅助、没有遥控、没有外带电源,完全靠AI算法、自身电池电控、高集成的电驱执行器驱动的人形机器人。
怎么实现?特斯拉在这个项目上有哪些创新?
一一来看。
整体情况
擎天柱机器人身高170cm左右,重73公斤。整个机器人由一块2.3度电池供电。
电控系统,包括充放电的功率半导体模块,都集成在了机器人胸口的电池包中。
机器人静坐时,功耗为100w,快步行走时,功耗为500w。
可以估算,这样的能耗水平和电池容量,可以支撑擎天柱不间断持续工作1.5-2小时之间。
擎天柱全身最大实现200度自由活动范围。
负责完成主要任务的手部,有最大27度活动范围(腕部)。
我们看到的这个能走路、挥手、跳舞的擎天柱,是目前的最新版本,没有包覆外壳。
马斯克介绍,今年4月擎天柱第一次实现站立行走,到现在也不过半年时间。
下一个完成度较高、包裹“皮肤”的机器人,未来几个月内就能下地走路。
售价吗…马斯克也给出了一个让人期待的估计:
很可能20000美元以内,肯定比汽车便宜。
擎天柱能做到什么?
擎天柱200多个自由活动维度,由全身28个结构执行器实现。
控制这些执行器的,也是从特斯拉FSD自研计算平台衍生而来的SoC。
擎天柱机器人能做到什么?
简单的展示中,能够自己搬运物品,完成精细动作比如浇花。
通过模仿人类的关节和肌肉工作方式,特斯拉为擎天柱开发了6种不同的执行机构:
甚至可以提起500公斤重的钢琴:
如何使6种、28个不同的执行机构像人一样协调统一的活动呢?
整体策略:AI像人学习
机器人有28个驱动机构,基础已经具备。
但难点在于执行器级别优先度不明确。
所以需要AI模型理解不同任务下各个关节的调动方式。
特斯拉的方式是采集不同这是任务下的人类关节运动模式,提取其中关键参数,比如扭矩分布、关节旋转角度等等,然后合成一个整体的多维向量数据,并灌输给系统。
如何让擎天柱完成一个具体任务?
总体分为两个步骤。
首先是前面说的将人类的示范动作映射成多维向量,并让系统首先模拟出这个具体任务的关节运动轨迹:
紧接着,再通过实时系统将已经生成好的轨迹指令,发送到机器人对应的执行机构上。
但这个过程中,涉及到许多细分技术难题,特斯拉分别介绍了感知识别、行走与平衡、执行策略,以及手部动作几个方面。
感知:特斯拉自动驾驶同源技术方案
擎天柱看到的世界是这样的:
目标感知和识别算法的基础,其实就是FSD的相应模块。
这一部分如何提高识别的准确度和规划擎天柱前进的路线,其实和自动驾驶算法相同。
“相当于一个低速、两条腿的自动驾驶汽车”。
后面介绍FSD时会详细说明。
如何保持平衡
从工程角度看,行走并不是一件简单的事。最重要的是保持平衡。
其次保持整体动作的协调。
机器人上如何实现?
特斯拉开发了一个全新的机器人运动模型。
预设路线规划好,输入给系统后,系统会自动绘制出机器人的下一个落脚点,并且和整个机器人重心联动,保持迈步同时的平衡。
不过 ,这里仍然存在工程上的控制挑战。
如何实现规控
刚刚说的运动规划,是在理想条件下实现的,只存在于系统模拟之中。
擎天柱真正迈出这一步,其实很容易受现实世界复杂环境的干扰而摔倒。
特斯拉的方案是在执行决策中加入修正步骤。
利用传感器数据的真实性,不断修正运动学模型对轨迹的估计。
这张图解释的很清楚:
基本运动模型,由本地已经训练好的算法模块(以真实世界模拟为素材)为基础。
这个模型首先对环境进行模拟,预测出下一步行动轨迹。然后由传感器数据预测修正。
最后将修正后的指令发送到执行机构。
手部复杂系统
擎天柱手指单独成一个系统,有6个执行机构,每个关节实现最大11度的自由运动。
基本灵活性和人类手掌相当,也能做到每秒300度的转动速度,而且关节、指尖触点装有传感器。
能够承重20磅(9公斤)、使用工具,以及抓取细小物品。
擎天柱明年开始量产,马斯克尽管说它的售价可能不超过20000美元,但同时也认为人形机器人的价值其实并没有被大众真实认知。
所以之前马斯克也在推特上说,最先应用擎天柱的场景,可能就是特斯拉自己的超级工厂。
关于这一部分,他画了一张很大的饼。
特斯拉之所以把机器人造成人类模样,主要目的就是取代人类完成几乎所有经济活动中需要的劳动。
“因为这个世界的所有工具、系统都是为人类的形体特征建造的。”
而马斯克认为,一旦机器人变成主要生产力,人类完全就能实现个人的全面发展。
得到你想要的一切物质财富,学习享受一切你感兴趣的东西。
我们中国群众一点都不陌生,这不就是共 产 主 义吗???
首先登场的是特斯拉Autopilot负责人Ashok Ellaswamy。
他表示,特斯拉FSD自动驾驶车队规模从去年的2000,到现在已经扩充到了16万。
紧接着说道,之所以能达到这个成绩,主要归功于过去一年里工程师们的血汗付出——对75,000多个神经网络模型进行训练。
整个特斯拉FSD系统由以下部分组成:
更准确的说,这是特斯拉典型自动驾驶算法的开发流程。
FSD的主体算法框架,由车道、障碍物识别算法,以及环境建模算法(可供行驶的空间)组成。
当然,这些都是已经预训练好的框架。
然后将经过自动标注、模拟的训练数据喂给算法,这就形成了完整的迭代过程。
之后将这套算法部署在车端,完成自动驾驶任务。
接下来还详细介绍了特斯拉Autopilot系统如何与现实世界进行交互。
每50毫秒可以实时做出一个决策,具体依靠如下的框架,将其概括为“交互搜索”。
决策的依据,是现实存在的车道线、以及其他移动的交通参与者。
根据轨迹预测算法,计算出多种可能的运动轨迹,这里需要用到不同的限制条件过滤掉那些明显不安全、不合规的轨迹。
这些规则,其实也是FSD系统通过巨量的真实道路数据学习得来的。
而且不仅仅是机械的交通准则,更多是人类老司机处理极端场景时的策略和方法。
后台训练方面,特斯拉目前的计算集群,由14,000个GPU构成,其中使用10,000个GPU来训练,4000个GPU则用来标记。
关于自动标注,以复杂路口的车道线为例,特斯拉每天有超过50万个case被收集,如果全部使用人工标注,将耗费数个月的时间。
所以,特斯拉开发了一种新的系统:3D自动“打标工厂”。
第一步,数据从8个摄像头处获得,并且使用Transformer为基础的BEV模型从不同传感器的2D数据中恢复3D场景。
然后从这些初步处理过的数据中,先进行轨迹预测。
第二步,对于多车道的场景进行重建,这里指的是在系统中重建用于模拟训练的场景。
最后,则是在新建的模拟场景中,标注出新的数据要素,比如其他目标的轨迹策略、车道线的不同形式等等。
整个流程不过30分钟时间。
标注之外的另一个环节,是模拟。
重建模拟环境,通常需要几个星期的人工。
但特斯拉的Lanegraph工具,几分钟内就能完成。
生成模拟环境,基础还是车辆在路径上采集到的真实信息。
Lanegraph会基于这些数据,学习到关于某一类道路环境的基本要素(ground truth),包括车道线形式、道路宽度、人行道边界、交通标志信息等等。
然后,Tile creator模块会根据这些要素,自动生成一个模拟场景。
然后,场景中的物体几何信息,与时间维度的实时状态会被提取出来。
最后,再使用虚幻引擎将这些特征渲染成高真实度的场景。
有多真实?包括道路标牌信息上的文字、路旁树木形成的斑驳阴影等等都能呈现。
数据闭环最后一步,就是训练和迭代。
这张图展示特斯拉整个数据闭环的过程:
其中,值得关注的是“影子模式”,即车主在使用过程中传回的高价值场景数据。
这也构成了特斯拉最主要的训练数据来源,也是FSD快速进步的最主要原因:
以识别路口静止车辆这个具体案例来说,真实场景数据远高于模拟场景,一年时间内识别准确率从85%左右提升到近100%。
这次的AI Day,特斯拉FSD讲了很长时间,但和去年相比,颠覆性技术革新并不多。更多的是特斯拉展示已经建成的高度自动化的数据闭环体系,以及这套数据闭环带来的高效迭代速度。
有意思的是,这些技术思路,比如对Attention机制、Transformer、语言模型化用等新进展,跟国内更早之前自动驾驶公司毫末智行的AI Day上的大同小异——也意味着对于自动驾驶的工程化探索,目前业界到了合流的时候。
最后总结一下:
数据前融合,采用基于Attention的Transformer进行。这是一个由特斯拉开创、其他自动驾驶玩家纷纷跟进的趋势。
模型优化方面,应用了不少NLP(自然语言处理)领域的思路。
格外重视的,还云端训练,这就带出了AI Day的另一个重要内容:
这一部分,几乎都是黄仁勋和英伟达的受难时间。
Dojo由特斯拉自研计算芯片D1集成。
具体来看,25块D1集成为一个计算模块。
一个计算模块,相当于6个通用GPU性能,而成本和能耗,仅相当于1个GPU。
另外,去年特斯拉介绍了自建超算的基本模块单位ExaPOD,集成120个训练模块,包含3000个D1芯片,超过1百万个训练节点。算力达到1.1EFLOP。
当时只是PPT,最新消息是,明年特斯拉即将在加州Palo Alto开建,总共规划了7个ExaPOD组成计算集群。
不用说,建成之后肯定是人类有史以来最大的AI专用训练、模拟基础设施。
马斯克在问答中也透露,DOJO不光会特斯拉自己用,也会考虑AWS一样的方式对外商用,总之有这样的大杀器,不愁商业模式。
最后,作为AI Day的互动交流环节,马斯克亲自上阵,尽可能回答了所有问题。
这些问题主要集中在三个方向上:
第一,擎天柱机器人和通用人工智能。
第二,自动驾驶。
第三,马斯克的认知和特斯拉未来。
我们言简意赅传送如下。
问:擎天柱机器人现在用的肌腱系统定型了吗?
马斯克:我们现在的方案是为了更快实现工程化制造,即便有很多方案可以选择但也有取舍,但根本上依然保持开放心态,会在不断迭代中改进方案。
问:擎天柱机器人会有认知智能吗?比如开开玩笑。
马斯克:肯定能跟人聊聊天,有简短的交谈,但也不要走到终结者那样……我们希望擎天柱能够安全、有保障地为人类服务。
现在的擎天柱核心是实用主义的完成任务,以后会推进创造性认知的一面…擎天柱机器人肯定不是无聊的执行器。
问:如何保证擎天柱机器人的“意识”始终是正确的,不会伤害人类?
马斯克:我们的机器人跟科幻电影的里的还不一样,主要还是你希望做什么它就执行什么,当前还是比较偏执行的机器人。
机器人工程师补充:机器人的“意识”一方面可以通过数据训练,二是确保可以远程控制,一旦发现有不对的倾向可以接管。
马斯克补充:或许会有一个终极控制按钮。
问:擎天柱机器人的开发还跟加速可持续能源的特斯拉使命有关吗?
马斯克:严格讲不是一个路线。擎天柱核心还是希望让世界更美好,能够让人类更美好。
我是真的想看看最酷的最前沿的技术,让世界在5年后、10年后变成什么样……我是真的很感兴趣。
问:擎天柱机器人正在走向通用人工智能(AGI),你担心吗?
马斯克:我是人工智能的忠实信徒,并且认为需要像监督汽车、飞机和药物一样,确保AI的正确使用。应该有一个裁判的角色,保证AGI的安全使用。
但实现AGI,可能需要一个史无前例的超大数据集。不仅是互联网数据,还有诸多线下的数据。于是就需要有更大的超算来训练……这样才能实现AGI。
问:AGI的发展预估?
马斯克:AGI一定会来。比如5年、10年会有很大的改变,但下周可能不会有大的更新…所以前途是光明的,道路是曲折的,还有很多工作要做。
机器人的本质是传感器和执行器,以及如何控制执行器。
问:擎天柱机器人啥时候会投入使用?
马斯克:现在就已经在特斯拉工厂测试,搬东西,从一个地方搬到另一个地方。
我希望很快能进入到开放订购的状态。
三五年吧。三年量产、五年随便买,能够当个礼物送人。
问:特斯拉FSD为什么开始引入语言模型?
工程师:车道和路口啥的,只能通过语言模型的方式,可以实现更好的……视觉信息的建模没那么完整的时候,语言模型、语言生成模型可以起到很好的作用。
问:FSD的公测推送标准?
工程师:我们会有好几个版本,通过公测推送的不是内部最新的那个版本。
马斯克:内部最新的版本通常都是我来测,我是FSD的首席测试。经常给他们debug。(现场笑)
问:特斯拉会始终坚持视觉方案?
马斯克:自动驾驶的本质就是生物神经网络,你始终可以参照人类的方式。
问:FSD的推进计划?
马斯克:很多国家需要批准才能开始FSD测试,但我相信我们已经准备好了。FSD今年年底还会有大的更新。目标就是一个停车场到目的地停车场的连续自动驾驶。
问:如果回到20岁,你会告诉自己什么?
马斯克:(认真思考了一会儿),我会想办法给20岁的自己说点实用的吧。比如尽可能站到人前,和更多聪明人认识,读更多的书。以及不要太羞涩内向……偶尔送送玫瑰啥的也很好。
享受每一个时刻。比如我们火箭在小岛研发的时候,该喝一杯的时候就喝一杯,因为那个时刻的感觉转瞬即逝,不会再有了。
问:特斯拉何以为特斯拉?独特性在哪里?
马斯克:我们现在是很大的公司了,有不同领域知识的人才,而且我们做的事情几乎都相当成功,因为在做正确的事情。也因为我们的使命是工程师用技术让世界变得更美好。
其实很多硅谷公司都这么想,但能让工程师真正快乐、且发挥才能的,不多。多数就是被画饼进去,然后得不到有效地成长。
但特斯拉不是,这里非常酷,也很辛苦,解决很多艰难的挑战,但如果你是一个天才,不管是哪个方面的,总有你的用武之地。
问答最后,马斯克带动现场参会者感谢了特斯拉工程师们,还讲了一下AI Day的意义,说之所以披露大量的细节,就是希望感兴趣的人可以随时挑着看自己感兴趣的东西,加入我们,改变世界。返回搜狐,查看更多
责任编辑: