
“具体数据是一个很好的轨道,在未来几年内更具确定性。”作者 高景辉 编辑 马晓宁 具身智能作为连接虚拟模型与物理世界的主赛道,正在成为行业竞争的焦点。聚焦人工智能和机器人领域的创新成果和产业落地的第八届GAIR全球人工智能与机器人大会日前圆满闭幕。本次大会上,深圳极数迭代科技创始人童贤桥博士带来了关于嵌入式智能数据领域的深度分享。在依赖海量数据的大型语言模型大量增长的背景下,实体智能和机器人领域面临着巨大的数据供给缺口——现有数据集的规模仅达到数千至数十万小时,远不及语言模型的海量数据储备。数据是主要基础构建体现智能。其稀缺性、高成本和碎片化成为制约机器人泛化能力提升的主要瓶颈。童贤桥博士结合其行业实践经验,全面阐释了具身智能数据的核心价值、当前行业面临的三大瓶颈、数据工程体系的特点以及针对性的产品解决方案,为行业解决数据问题、推动具身智能规模化发展提供重要参考思路。以下是博士的演讲内容。童贤桥,雷锋网编辑,未改变原意。 01 Embodied Intelligence的数据价值首先大家来到GAIR大会的数据环节,应该知道从上一波大型语言模型的发展来看,对数据的需求是特别大的。在在实体智能、数据和机器人领域,目前的数据确实还远远不够。目前的标准数据集只有几千到几万小时的数据,而美国的一些公司最近已经进步到了几十万小时。相比网络上语言模型数据动辄上万的海量,差距是显而易见的。我认为体现数据是未来几年一个伟大且更加确定的轨道。虽然它目前的数据量很小,但是我们可以预见,无论未来模型发展得如何、本体如何迭代,数据永远是基础,所以未来几年的数据量将是巨大的。因此,我们说实体数据服务将是下一个Scale AI,或者说是机器人领域一个比较具体的数据服务机会。 02具身智能的数据瓶颈 目前具身数据的瓶颈有哪些?事实上,通过安娜与尺度定律相比,机器人的通用能力还差得很远。主要问题是模仿学习需要适应不同的本体、不同的数据、不同的情况。然而,我们目前的数据收集能力和空间概括能力严重不足。根据多篇学术论文的研究,概括性实际上与数据量的幂律有关。现在主要的问题是我们希望机器人能够在任务中取得相当好的成功率,但是现有的数据量还远远不够。而最近的一些工作证明,在机器人领域,缩放定律确实仍然存在,所以我们追求的仍然是“努力才能创造奇迹”——更多的数据可能会带来更好的结果,所以数据需求的瓶颈必须得到解决。那我们就来说说体现智能的技术路线。我们原本讲的corres的“小脑+大脑”路线池塘到系统1和系统2。右侧是端到端的数据路由。虽然分为不同的技术路线,但中心部分相当于小脑划分为某些技能,或者通用技能。无论是分层路由还是端到端路由,对体现数据的需求都是巨大的。从这里开始,我们一一审视:系统2是“大脑”,主要负责理解物理世界的常识,理解人类的指令,并将相对复杂的任务分解为详细的任务。这些都可以算是逻辑思维;小脑或技能水平,包括抓取和触摸等动作,需要人类向其传授数据,以及机器人感知数据。为了使其能够推广到不同的情况,它必须涵盖不同的情况。对于小脑来说,很多都需要人工注释,就像我们需要标记自动驾驶和机器人的帧一样t数据,还需要标记关键帧,标记它的动作,标记它在做什么;端到端训练是大脑和小脑的整合。不同的流派有不同的方法,但归根结底,我们都需要不同的数据,需要人的参与,需要覆盖不同的情况,实现不同任务的通用性。从定性分析的角度来看,它确实需要大脑数据和小脑数据,乘以不同的机器人类别——因为本体中的数据仍然很难重用。满足这个需求,有两种方式:一是加强人工标注和展示,这需要很大的成本,因为可能需要更多不同的本体,投入会很大;二是加强人工标注和展示,这需要很大的成本。另一个是创建更一般的任务和情境,这些任务和情境的成本也非常高。因此,这些瓶颈主要集中在三点:一是燃气赌注增加,大规模优质数据的成本增加。ta收藏现在很难承受。无论是使用动作捕捉还是真机来收集数据,都是一笔很大的投资;其次,由于当前模型的跨本体能力较弱,数据产生了很多数据孤岛,很难制定统一的标准;第三,现有数据的实际能力难以评估,这是我们面临的主要数据瓶颈。 03 具身智能数据工程 具身智能本身并不是一个简单的训练模型。嵌入式智能数据本身也是一项工程壮举。它是从底层采集设计,到建立数据标准,到如何在真实和模拟环境中采集和部署的一系列工程任务。数据集的现状有很多种不同的数据集,包括操作数据、移动数据、逻辑语义数据、导航数据,但都各司其职。未来会不会有一个通用的模型来连接所有的设备?l 这些数据在一起吗?目前,我们不知道,或者说我们不能。先说一下目前的真机合集和模拟合集。真机采集数据的方式有很多种,比如远程操作、示教等,如右图。末端执行器运动捕捉人类视觉数据进行学习,还有下面的遥控同构望远镜光学冠操作。数据收集有不同的方法。现在已经无法区分哪些数据是好的,哪些数据是坏的。他们都有自己的优势和相对于其他维度的劣势。不同的团队、不同的公司正在向不同的方向进行探索。下一部分是模拟数据。目前,在轨迹合成、姿态合成、预测生成和决策生成方面有各种探索。每个人也在这个方向上尝试不同的事情,因为一些团队认为使用模拟数据可以取得比重新获得更好的结果。所有机器数据。这就是真实数据和模拟数据中发生的情况。那么我们如何解决这些问题呢?目前,还没有通用的解决方案。我们认为,就是针对不同的情况设计不同的系统,找到效率和可靠性之间的最佳平衡点。我们希望通过建立一些数据标准来实现真实机器数据、现实世界数据或者模拟数据的降本增效。最后,在部署过程中,我们也会在对接不同机器人、不同场景时实现一些优化。如何解决数据孤岛问题?从图表来看,纵轴代表数据的有效性,或者说与真机比较一致的数据,比如远程操作的固定真机,质量最高;横轴代表数据的通用性,比如人体视频数据,数据量最大,但目前来看,训练模型的效果可能是最差的。对于对于这些类型的数据孤岛,我们目前的解决方案是收取所有费用。 04 体现智能数据平台AIRSPEED 讲一下我们公司的相关工作,包括AIRS(深圳人工智能机器人研究院)开发的体现智能数据平台AIRSPEED。我们希望我们的平台能够兼容不同的机器人本体和远程控制设备。通过各种机器人接口、远程控制接口、仿真接口,实现真机、仿真和各种机器人之间良好的兼容性。我们希望通过这种高软硬件兼容性以及技术兼容性,我们能够实现生产灵活性并更高效地生产数据。通过我们的架构,我们最大限度地减少了用户编程要求。其实就是配置远程操作接口、机器人接口、数据集服务,然后使用我们的其中一个接口,实现整个数据生产的流畅。过程。我们希望建立一个第三方平台,以减少客户适应不同机器人和不同数据的复杂任务。目前,我们不仅仅是一个技术解决方案,更是一个管理解决方案平台。当您的数据达到一定规模时,您确实需要管理大型收集器和注释器,以及任务调度、数据处理和注释。这是一系列的系统项目,可以通过我们的平台进行高效的管理。说说我们平台的优势:对于真机数据,我们提出“通达”,就是适应不同的采集方案,从远程操作到教学,包括光学冠、视觉姿态、动作捕捉。我们会分三个阶段进行兼容,我们会尽量做到统一的接口,让更多的客户和平台能够适配我们的解决方案。对于仿真数据,我们提出“万物皆可生长”,实现各种仿真数据的统一管理离子平台和各种资产从轨迹合成、资产合成、决策生成和预测生成四个维度。我们的平台主要希望提高数据生产效率,因此我们还引入了AI Agent的概念,以减少任务管理器、任务调度器等群体的工作量。同时我们还添加了大模型,用于自动标注、自动资源管理、以及训练模型的一些评估。事实上,我们只是想创建一个体现智能数据的工具链,让每个人都可以使用这个工具链更好地训练模型,更快地部署模型,并得到他们想要的结果。我们也与该公司和AIRS进行了多次尝试,现在我们已经能够快速迭代模型,无论是在真机还是模拟上。我们在生成真实世界数据集方面实现了超过 30 倍的加速,在模拟方面实现了 3.5 倍的加速。我们希望按照这个速度,我们可以使用 flywheel效应不断提高模型迭代效率。这是我们的数据管理平台。我们专注于数据集交付,负责发布任务、管理工具、标注数据,并分别管理任务、工具、标注和用户。不同的客户可以直接在我们的平台上管理和开发任务。无论您使用远程操作、动作捕捉还是UMI,您都可以接入我们的平台实现统一的数据管理。我们还有几个合作伙伴,包括远程控制设备合作伙伴、数据供应商收集箱、以及各个机器人制造商,他们都与我们合作。这些也是我们硬件产品的一些相关说明。最后介绍一下公司:我们叫深圳市极数迭代科技有限公司,是AIRS孵化的一家公司,主要专注于探索机器人数据和体现数据。我们感觉体现智能这个大赛道还存在很多不确定性,但是实体情报数据是这种不确定性中的一个方向,所以我们希望从实体情报数据入手,做一些尝试。我公司主要以体现智能数据的AIRSPEED平台为核心产品,提高数据效率。我们也有一些相关的工作,还有一本相关的书叫《Embodied Intelligence Data Engineering》。最后让meg简单说一下我们平台的处理方法:进入后可以以数据集为中心创建不同的数据集,选择不同的本体设备和远程控制设备,做一些描述,然后从这个角度创建数据集,也可以克隆数据集。有了数据集,我们就可以创建不同的任务,比如从桌子上拿一些玩具。我们还可以通过大型模型批量构建任务,因为当数据量增大时,人们很难思考这么多任务。任务批量创建后发送到c收集器收集数据 - 这是使用 Stardust 机器人的收集过程,它执行简单的拾取和放置任务。选择任务完成后,数据上传至平台,标注者收到指令后即可进行标注。这里显示的是关键帧标注,它在机器人选择玩具时进行一些关键帧标注。评分后,审稿人可以批准或拒绝它。例如,如果他们认为标记不合格或者存在其他问题,就像本例中,如果机器人的操作存在明显问题,他们就会将其移除。完成后,您可以导出标准数据集,采用 JSON 或 lerobot 格式。获得数据集后,可以直接用它来训练模型。我们现在支持各种机器人,例如星尘机器人;以及各种遥控设备,如同构Open Arm机械臂、大象机器人的VR控制玻璃、Noitom的动作捕捉设备评论。我们还支持模拟环境下的远程操作和数据采集,例如ALOHA的同构机械臂。以上就是演讲的全部内容。希望大家能够在具身智能数据领域共同努力。
特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(如有,包括照片和视频)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。