事实天下版的 Genie-2?近来,天下模子(World Models)仿佛成为了 AI 范畴最热点的研讨偏向。继 World Labs(李飞飞)、谷歌 DeepMind 接连宣布本人的天下模子研讨之后,Meta FAIR 的 Yann LeCun 团队也参加了疆场,也在统一周之内宣布了导航天下模子(Navigation World Models/NWM)。咱们晓得,Yann LeCun 一边在一直唱衰以后主导 LLM 范畴的自回归范式,同时也始终是天下模子的「宣传者」。上月中旬,该团队就曾经宣布了一篇天下模子相干研讨结果,但那篇研讨波及的模子范围不年夜,情况也较为简略,参阅呆板之心报道《LeCun 的天下模子开端实现!基于预练习视觉特点,看一眼义务就能零样本计划》。而这一次,LeCun 团队宣布的 NWM 看起来能顺应更庞杂的情况了,而且与 World Labs 跟 DeepMind 的天下模子一样,也能基于单张图像天生持续分歧的视频。只是 LeCun 团队的这个天下模子愈加夸大天下模子的导航才能,其可能在已知情况中依照轨迹前进,也能在未知情况中本人寻觅行进途径,还能履行门路计划。不外团体而言,与能单图生天下的 DeepMind Genie 2 比拟,NWM 的单图生视频仍是要稍逊一些。论文题目:Navigation World Models论文地点:https://arxiv.org/pdf/2412.03572v1名目地点:https://www.amirbar.net/nwm/从其名目网站的演示视频看,NWM 的后果很不错,可能基于单张实在照片履行相称好的导航操纵。只能说,天下模子,也开端卷起来了。NWM 后果演示在深刻懂得 NWM 的技巧细节之前,咱们先来看看它的现实表示怎样。起首是在已知情况中依照轨迹前进的才能。NWM 可能基于单张输入帧跟给定的输入举措分解视频,这个进程是自回归式的。另需阐明,在这里,模子曾经曾经练习阶段看过了这个情况,但轨迹是全新的。能够看到,不论是室内情况仍是室外情况,NWM 都存在相称不错的场景懂得表示。NWM 也能在未知情况中导航:它不只实用于已知情况,对练习中从未见过的单张输入图像,模子也能够依据给定的输入举措自回归式地猜测后续帧。上面是与别的模子的对照情形,能够看到,NWM 在保障分解视频的分歧性跟稳固性方面以及举措的履行后果方面都愈加杰出。别的,该团队也研讨了应用 NWM 跟外部导航战略 NoMaD 来履行计划。详细来说,就是让 NoMaD 给出轨迹,再让 NWM 来停止排名 —— 后者会天生轨迹视频并选出此中得分最高的轨迹。团体而言,LeCun 团队的这项 NWM 研讨做出了以下奉献:提出了导航天下模子跟一种全新的前提分散 Transformer(CDiT);比拟于尺度 DiT,其能高效地扩大到 1B 参数,同时盘算需要还小得多。应用来自差别呆板人智能体的视频跟导航举措对 CDiT 停止了练习,经由过程自力地或与外部导航战略一同模仿导航计划而实现计划,从而获得了以后开始进的视觉导航机能。经由过程在 Ego4D 等无举措跟无嘉奖的视频数据上练习 NWM,使其能在不曾见过的情况中获得更好的视频猜测跟天生机能。导航天下模子NWM 的数学描写上面先来看看 NWM 的公式描写。直不雅地说,NWM 是一个接受以后天下状况(比方,对图像的察看)跟导航操纵(描写物体挪动到那里以及怎样扭转)的模子。而后,该模子依据智能体的视角天生下一个天下状况。本文给出了一个第一人称的视频数据集,其包括智能体导航举措,此中 ]article_adlist-->。a_i 的导航举措能够被完整察看到。是图像,a_i = (u, ϕ) 是由平移参数 ]article_adlist-->给出的导航下令,把持向前 / 向后跟阁下活动,以及导航扭转角 目的是进修一个天下模子 F,即从先前的潜伏察看 s_τ 跟举措 a_τ 随机映射到将来的潜伏状况表现 s_(t+1 ):因为此公式简略易懂,因而它能够天然地跨情况共享,并轻松扩大到更庞杂的举措空间,比方把持机器臂。公式 1 模仿了举措,但无奈把持时光静态(temporal dynamics)。因而,作者用时移输入 k ∈ [T_min, T_max] 扩大此公式,设置,因而当初 a_τ 指准时间变更 k,用于断定模子应向将来(或从前)挪动几多步。因而,给定以后状况 s_τ ,能够随机抉择 k, token 化响应的视频帧。而后能够将导航举措近似为从时光 τ 到 τ + k 的总跟:上述公式既能够进修导航举措,也能够进修时光静态。现实上,本文容许时光偏移最多 ±16 秒。分散 Transformer 作为天下模子前提分散 Transformer 架构。本文应用的架构是一个时光自回归 transformer 模子,该模子应用高效的 CDiT 块(见图 2)。CDiT 经由过程将第一个留神力块中的留神力限度在正在去噪的目的帧中的 token 上,实现了在时光上高效的自回归建模。为了对从前帧中的 token 停止前提处置,本文还整合了一个穿插留神力层,而后,穿插留神力经由过程腾跃衔接层将表现情境化。应用天下模子停止导航计划接上去,文章描写了怎样应用经由练习的 NWM 来计划导航轨迹。直不雅地说,假如天下模子熟习某个情况,能够用它来模仿导航轨迹,并抉择那些可能到达目的的轨迹。在未知的、散布外的情况中,临时计划可能依附于设想力。情势上,给定潜伏编码 s_0 跟导航目的 s^∗,目的是寻觅举措序列 (a_0, ..., a_T),以最年夜化达到 s^∗ 的可能性。界说能量函数,使得最小化能量与最年夜化未归一化的感知类似度得分绝对应, 并遵守对于状况跟举措的潜伏束缚。类似度的盘算方式是,应用预练习的 VAE 解码器将 s^∗ 跟 s_T 解码为像素,而后丈量感知类似度。那么成绩就简化为寻觅最小化该能量函数的举措:该目的可被从新表述成一个模子猜测把持(MPC)成绩,而且可应用穿插熵方式(Cross-Entropy Method)来优化它。导航轨迹排名方式。假设已有一个导航战略 Π(a|s_0, s^∗),可应用 NWM 来对采样失掉的轨迹停止排名。这里,该团队的应用了一种 SOTA 的导航战略 NoMaD 来履行呆板人导航。在排名时,会从 Π 给出的多个样本当选出能量最低的谁人。试验成果上面来看看 NWM 在试验中现实表示。起首,数据集方面,该团队应用了 TartanDrive、RECON 跟 HuRoN。NWM 能够获取呆板人的地位跟角度数据,而后揣摸在以后地位的相干举措。评价指标包含相对轨迹偏差 (ATE)跟绝对姿势偏差 (RPE)。对照基线包含 DIAMOND、GNM 跟 NoMaD。融化试验模子在已知情况 RECON 上对验证集轨迹对单步 4 秒将来猜测停止评价。研讨职员经由过程丈量 LPIPS、DreamSim 跟 PSNR 来评价绝对于空中实在框架的机能。图 3 中供给了定性示例:模子巨细跟 CDiT。研讨职员将 CDiT 与尺度 DiT(此中全部高低文标志都作为输入)停止比拟。此中假设,对导航已知情况,模子的容量是最主要的,图 5 中的成果标明,CDiT 确切在存在多达 1B 个参数的模子中表示更好,同时耗费的 FLOP 不到 ×2。令人惊奇的是,即便参数数目雷同(比方,CDiT-L 与 DiT-XL 比拟),CDiT 也能够快 4 倍,而且表示更好。目的数目。在给定牢固高低文的情形下练习存在可变目的状况数目的模子,将目的数目从 1 变动为 4。每个目的都是在以后状况的 ±16 秒窗口内随机抉择的。表 1 中讲演的成果标明,应用 4 个目的可明显进步全部指标的猜测机能。高低文巨细。研讨职员在练习模子的同时将前提帧的数目从 1 变为 4(见表 1)。不出所料,更多的高低文带来了辅助,而对较短的高低文,模子平日会「迷掉偏向」,招致猜测欠安。时光跟举措前提。研讨职员同时应用时光跟举措前提练习模子,并测试每个输入对猜测机能的奉献水平。成果包括在表 1 中。研讨职员发明,应用时光运转模子只会招致机能欠安,而不应用时光前提也会招致机能略有降落。这证明了两种输入对模子都有利益。视频猜测与分解 这里评价的是模子服从实在举措跟猜测将来状况的才能。以第一张图像跟高低文帧为前提,该模子须要依据 ground truth 举措,以自回归方法猜测下一个状况,并给每个猜测供给反应。经由过程比拟在 1、2、4、8 跟 16 秒的 ground truth 图像,再得出在 RECON 数据集上的 FID 跟 LPIPS 值,能够对这些猜测成果停止比拟。图 4 展现了在 4 FPS 跟 1 FPS 帧率下,NWM 与 DIAMOND 的机能情形。能够显明看到,NWM 的猜测正确度比 DIAMOND 好得多。一开端的时间,NWM 1 FPS 的表示更好,但 8 秒之后,它就会由于累积偏差跟高低文丧失而被 4 FPS 版本超越。天生品质。为了评价视频品质,该团队以 4 FPS 的速率自回归猜测天生了一些 16 秒长的视频,同时这是基于 ground truth 举措的。而后,再应用 FVD 评价天生视频的品质,并与 DIAMOND 停止比拟。图 6 中的成果标明 NWM 输出的视频品质更高。应用 NWM 履行计划接上去的试验权衡了 NWM 履行导航的才能。自力计划。试验标明,这个天下模子能够无效地自力履行目的导向的导航。基于从前的察看跟目的图像,NWM 能够应用穿插熵方式找到一条轨迹,同时尽可能下降猜测图像跟目的图像之间的 LPIPS 类似度,试验成果见下表 2,能够看到 NWM 的计划才能足以比肩 SOTA 战略。带束缚前提的计划。在应用 NWM 停止计划时,还能够指定束缚前提,比方请求智能体走直线或只转弯一次。表 3 的成果标明,NWM 能够在满意束缚的同时停止无效计划,而且计划机能变更不年夜。下图 9 中包括了阁下优先束缚下的计划轨迹案例。应用导航天下模子停止排序。NWM 能够加强目的前提导航中已有的导航战略。研讨者依据从前察看成果跟目的图像对 NoMaD 停止前提化,采样了 n ∈ {16,32} 条轨迹,此中每条轨迹长度为 8,并经由过程应用 NWM 来自回归地遵守举措以对这些轨迹停止评价。最后,研讨者经由过程丈量与目的图像的 LPIPS 类似性来对每条轨迹的终极猜测成果停止排序,成果如下图 7 所示。他们还在上表 2 中讲演了 ATE 跟 RPE,发明对轨迹停止排序能够发生 SOTA 导航机能,而且采样的轨迹越多成果越好。泛化到未知情况的才能研讨者实验增加未标注的数据,并讯问 NWM 能否能够应用设想力在新情况中做出猜测。他们在全部域内数据集以及来自 Ego4D 的未标凝视频子数据集上练习了一个模子,而且只能拜访时移操纵。研讨者练习了一个 CDiT-XL 模子,并在 Go Stanford 数据集以及其余随机图像上对该模子停止了测试。成果如下表 4 所示,能够发明,在未标注数据长进行练习能够明显晋升各项视频猜测成果,包含进步天生品质。研讨者鄙人图 8 中供给了一些定性案例。相较于域内(上图 3),模子瓦解得更快而且在天生设想情况的遍历时还会发生幻觉门路。更多试验细节请参阅原论文。© THE END 转载请接洽本大众号取得受权投稿或追求报道:
[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->