
这篇研究来自印度班加罗尔的FPV Labs团队安顺pvc管道管件胶,于2026年5月以预印本形式发布于arXiv平台,论文编号为arXiv:2605.05945v4。感兴趣的读者可以通过这个编号检索到完整原文。
**故事从个让机器人研究者头疼的难题说起**
要让机器人学会做务——比如切菜、叠衣服、整理房间——你得先给它看大量"人怎么做这些事"的,就像教小孩做事样,看多了,自然就学会了。这类以人称视角拍摄的(也就是摄像头固定在人头顶,拍到人的双手在做什么),在机器人域叫做"以自我为中心的数据"(egocentric data)。
问题在于,现有的这类数据大多太短了——往往只有几分钟段,长也就几十分钟。而现实中,顿完整的饭要做个小时,扫整套房子要两个小时。如果机器人只学过"切菜3分钟"的片段,它就没法理解"先切完菜,再水,再下锅"这种跨越几十分钟的完整任务逻辑。这就好比个只看过片段预告片的观众,根本搞不清楚电影的完整剧情。
另个大难题是硬件门槛。现有能提供精确位置追踪(知道摄像头每时刻在空间中的位置和朝向)的设备,要么是Meta的智能眼镜(不对外销售),要么是业的动作捕捉套装(动辄十几万),普通研究者或者想贡献数据的普通人根本负担不起。
FPV Labs的研究团队决定换个思路:普通人手里的iPhone,能不能解决这两个问题?
答案是可以的。他们搭建了套叫做MobileEgo Anywhere的完整系统,并配套开源了数据处理工具STERA,同时发布了个包含200小时数据的数据集。整个采集硬件就是部普通的iPhone Pro,固定在头盔上戴着就行。
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
---安顺pvc管道管件胶安顺pvc管道管件胶
**、为什么机器人需要"长记忆"数据**
理解这个问题,需要先了解下现在机器人研究的主流训练式。当前的机器人控制模型叫做"视觉-语言-动作模型"(Vision Language Action model,简称VLA)——顾名思义,它同时理解画面、理解语言指令、并做出动作决策。这类模型的训练式和ChatGPT很像:喂进去的数据越多、越多样化,模型就越聪明。
研究人员发现,数据量和模型表现之间存在个非常规律的关系:数据每增加个数量,模型的表现就能持续提升,这种规律被称为"缩放定律"。这意味着,如果想让机器人真正具备泛化能力(也就是能应对各种不同的房间、不同的任务安顺pvc管道管件胶,而不是只会在实验室里表演),就需要海量的、多样化的数据。
现在的数据来源大致有三类,各有短板。互联网上的普通数量多,但这些没有记录"手的具体位置"和"力道大小",缺少机器人学习动作的关键信息。仿真环境里的数据可以限生成,但仿真世界和真实世界之间存在差距,机器人在虚拟环境学到的技巧,到真实世界往往"水土不服"。人类实际操作的人称是有价值的,因为它真实,也接近机器人实际操作时的视角——但偏偏这类数据难大规模收集。
现有的大型人称数据集,比如Ego4D(3670小时)和EPIC-KITCHENS(100小时),虽然数量可观,但普遍缺乏精确的相机位置追踪信息,也没有度数据,关键的是,单段时长太短,法体现"长期任务"的连贯。EgoExo4D数据集倒是有精确的位置追踪,但需要Meta的Project Aria智能眼镜加上套外置摄像头,普通人根本用不上。
这就是MobileEgo Anywhere要填补的空缺:用普通的消费硬件,收集带有精确位置追踪、有度信息、时长长的人称数据。
---
**二、部iPhone如何变成业数据采集设备**
很多人可能觉得,iPhone只是拍照电话用的,怎么可能达到业设备的水准?这背后的关键,是现代智能手机里其实内置了套非常精密的传感器组,而苹果的ARKit框架能把这些传感器的数据融在起,实现非常准确的空间定位。
具体来说,iPhone Pro系列搭载了三类关键硬件。是普通的RGB摄像头,负责拍摄彩画面。二是LiDAR传感器,也就是激光雷达,能测量摄像头到场景中每个点的距离——这就是所谓的"度信息",可以理解为每帧画面都多了个"距离地图"。三是IMU(惯测量单元),包含陀螺仪和加速度计,能以非常的频率记录手机的旋转和加速度变化。
ARKit会把摄像头画面和IMU数据实时融,计出手机在三维空间中的精确位置和朝向——也就是6个自由度的姿态(前后、左右、上下三个位置,加上俯仰、偏航、翻滚三个角度)。这套技术叫做视觉-惯里程计(Visual-Inertial Odometry,VIO),原本是给增强现实应用设计的,但研究团队发现它同样适作为机器人训练数据的位置追踪工具。
实际采集的法也非常简单:参与者把iPhone固定在自行车头盔上,佩戴后摄像头正好对准前工作台,能清晰拍到双手的操作。开始录制和停止录制都通过语音命令(说"start"和"stop")来控制,这样操作者的双手可以空出来做事,不用去碰手机。录制过程中,手机会同步记录彩帧、度帧、IMU数据和相机内参,统存储在种叫做MCAP的文件格式里,便后续处理。
为了验证这套追踪有多准确,研究团队做了个简单但有说服力的实验:在场景中放个ArUco标记(种黑白图案的定位码),录制开始时记下它的位置,然后在录制到半的时候和录制结束时再次"看"它,对比两次记录到的位置是否漂移。结果非常令人满意:在厨房活动场景中,录制到半时位置误差只有0.4厘米,录制结束时也不过0.7厘米;在整个房子里来回走动的场景中,终误差也只有1.5厘米,不过整段轨迹长度的0.1。对于套用普通手机实现的定位系统来说,这个精度相当出。
---
**三、数据采集完之后,如何把原始变成"训练粮草"**
拍完只是步。原始的文件对机器人训练来说,还不能直接使用——就像你收到了大堆食材,但还没有切菜、调味、烹饪样。研究团队开发并开源的STERA处理套件,就是负责把这些"食材"变成"可以上桌的菜肴"。整个处理流程主要提取三类信息。
**类是手部的三维轨迹。** 机器人要学习怎么动手,就需要知道人类做动作时手在空间中的精确位置。处理流程先用个叫WiLoR的经网络,从每帧图像中检测出手的关节点位置——这套系统遵循种叫MANO的手部参数化模型,会识别手部21个关节点,并保证预测出的手部姿态符人体解剖学约束(比如手指不会弯到不可能的角度)。这步产生的是相对于摄像头的二维/三维坐标。然后,结LiDAR拍到的度数据和ARKit记录的摄像头位姿,把这些手关节点的坐标"投影"到个统的世界坐标系里——这样,不管摄像头怎么移动,所有帧的手部位置都在同个参考框架下,可以连贯地追踪手的完整运动轨迹。
在98段会话(计119万帧、约25小时)上的验证结果显示,手部检测在86.2的帧上成功,WiLoR的平均置信度分数是0.73。研究团队用三个不依赖人工标注的物理指标来评估质量:骨骼长度恒定(同段骨头的长度应该在不同帧间保持致),关节角度理(手指弯曲角度要在人体解剖学允许的范围内),万能胶生产厂家以及手腕运动动态特征(速度和加速度要在正常人手活动范围内)。结果相当稳健:排除短的小拇指末节骨之后,骨骼长度的变异系数(衡量波动程度的指标)中位值低于1;过99.99的关节角度落在理的人体解剖学范围内;手腕运动的中位速度大约是每秒0.3米左右,和人体运动学文献中日常务操作的典型速度范围吻。
**二类是原子动作标签。** 对机器人来说,光有手的轨迹还不够,还需要知道每个动作的语言描述——不是泛泛的"拿起东西",而是精确到"把面团从金属碗里转移到大瓷盘上"这种程度。处理流程把切分成尾相接的时间片段,对每个片段用视觉-语言大模型(VLM)生成句描述语句,要求格式为祈使句,并尽可能包含物体的颜、材质、大小等修饰词,以及"从哪里到哪里"这样的空间介词。
把这套自动标注系统和人工手动标注做了比对:自动生成的标签平均有7.95个词,比人工标注的平均2.94个词详细得多;自动标签平均包含1.09个描述修饰词(颜、材质、尺寸),而人工标注只有0.09个。重要的是,自动标注在5249条标签中没有出现任何时间边界错误(比如时间段长度为或两段时间重叠),而人工标注的8898条标签里有63个时长异常的片段和877对前后重叠的时间区间(占相邻标签对的9.9)——这些错误如果不清理,会直接影响模型训练质量。
**三类是层化任务指令。** 段20到60分钟的务活动,包含几十个原子动作,这些动作其实有内在的逻辑层。比如,"把面团从碗里取出来"和"用擀面杖压平面团"都属于"整形面团"这个子目标,多个子目标在起构成"制作饼"这个大的目标。
处理流程把上步生成的所有原子动作标签按时间顺序排列,作为文本输入给个语言模型,让它自动把这些标签分组,形成三层结构:底层是原子动作片段,中间层是情节(episode,比如"把面团擀开并切成圆形"),再上面是子目标(sub-goal,比如"制作饼皮"),顶层是整个会话的总目标("切橙甜瓜、在压锅里煮土豆、用面团做饼、准备混谷物菜肴")。
研究团队测试了七个语言模型,其中六个能稳定地生成满足所有结构约束的输出。354段会话中,87(308段)次就通过了所有结构检验,其余46段在二次处理后也全部修正完毕。处理所有354段会话的总费用是1.29美元——相对于整个数据采集的投入,这几乎可以忽略不计。
统计数据的规律也印证了这套分层结构的理:原子片段的中位时长是5秒,情节是42秒,子目标是3.9分钟,完整会话是15.5分钟,相邻层之间大约有4到8倍的时间跨度,而且这种规律是从数据中自然涌现的,而不是人为强制规定的。此外,78的情节包含10个以下的原子片段,中位值是5个,这种紧凑的颗粒度非常适作为下游策略学习的监督单元。
---
**四、终发布的数据集长什么样**
整个数据集包含354段录像,共200小时,来自16位不同的贡献者,覆盖烹饪、清洁、缝纫、整理房间等务场景。会话平均时长21.2分钟,长的段连续录制了108分钟——而目前公开的其他同类数据集中,长单段也只有约42分钟(EgoExo4D),其他大多数只有几分钟甚至几十秒。
在标注密度上,数据集包含45415个原子动作片段、5570个情节、1298个子目标,动作词汇涵盖了约4.5万个不同类别,构成个长尾分布——常见的动词是"放置"和"拾取",但整个词汇表非常丰富,包含了各种日常操作的细致描述。按照动作类型划分,放置与整理类约占17,切割与缝纫类约占14.6,拾取与检索类约占13.9,检查与调整类约占13,混与搅拌类约占12.5,清洁与清洗类约占11.5,其余类别各占定比例,体现了务劳动的多样。
和现有数据集的横向对比来看,MobileEgo Anywhere是目前唯个同时满足以下条件的公开数据集:使用消费硬件采集、提供6自由度精确位姿、包含LiDAR度数据、提供手部关节标注、并且单段时长达到小时别。
---
**五、为什么这件事的意义出了机器人域本身**
研究团队发布的不仅仅是数据,重要的是整套基础设施:个费的iPhone采集应用、开源的Python处理套件STERA,以及数据可视化工具。任何人,只要有部iPhone Pro,就可以用这套流程采集并处理自己的数据。
这意味着什么?数据采集这件事,从原来需要实验室、需要业设备、需要大量资金的事情,变成了世界上任何个有iPhone的人都能参与的事情。位在印度尼西亚农村做饭的主妇,位在非洲记录传统手工艺的匠人,位在日本整理榻榻米的老人,他们的日常操作,都可以通过这套系统转化为机器人训练数据,而且质量丝毫不逊于实验室采集的数据。
机器人要真正走进千万户,就须学会在各种各样的文化背景、各种各样的厨房布局、各种各样的操作习惯下工作。而这种多样,只有通过全球化、去中心化的数据采集才能实现。MobileEgo Anywhere提供的,正是这样个让数据多样真正成为可能的基础设施。
---
归根结底,这项研究解决的是机器人学习"长期记忆"和"多样经验"这两个根本问题,而解决案出人意料地接地气——就是人手部的iPhone。当然,光有数据还不够,如何把这些数据真正用于训练出能在真实庭环境中工作的机器人,还有很长的路要走。但数据基础设施的民主化,是这条路上不可缺少的步。对于关心机器人未来的人来说,这是个值得持续关注的向:机器人学习的速度,很可能在很大程度上取决于有多少普通人愿意分享自己的日常操作。如果有天你的做饭真的帮台机器人学会了做红肉,那会是件很有意思的事。
有兴趣入了解技术细节的读者,可以通过论文编号arXiv:2605.05945在arXiv平台检索完整原文。
---
Q&A
Q1:MobileEgo Anywhere采集的数据和其他机器人数据集相比有什么优势?
A:MobileEgo Anywhere目前是唯个同时满足用消费硬件采集、提供6自由度精确位姿、包含激光雷达度数据、提供手部关节标注,且单段时长达到小时别这几个条件的公开数据集。相比EgoExo4D等需要业设备的数据集,它的硬件门槛低,任何人用iPhone Pro都可以复现。
Q2:ARKit在长时间录制中的位置追踪精度怎么样?
A:研究团队通过在场景中放置ArUco定位标记来评估追踪漂移程度。在三种不同场景下的测试结果显示,录制结束时的位置误差大不过1.5厘米,不过整段轨迹长度的0.1,在普通厨房和起居室场景中误差甚至只有0.4到0.7厘米,精度表现相当稳定。
Q3:STERA数据处理套件是否费使用?
A:是的,STERA开源费,配套的iPhone采集应用也费提供。研究团队的目标是让任何人都能参与数据采集和处理,从而动机器人训练数据的全球化和多样化。
相关词条:储罐保温 异型材设备 钢绞线厂家 玻璃丝棉厂家 万能胶厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定安顺pvc管道管件胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
