【AI视野·今日Robot 机器人论文速览第五十九期】Fri, 20 Oct 2023

AI视野·今日CS.Robotics 机器人学论文速览Fri, 20 Oct 2023Totally 29 papers👉上期速览✈更多精彩请移步主页Daily Robotics PapersCCIL: Continuity-based Data Augmentation for Corrective Imitation LearningAuthors Liyiming Ke, Yunchu Z

hitrjj

429人浏览 · 2023-10-24 17:37:02

hitrjj · 2023-10-24 17:37:02 发布

AI视野·今日CS.Robotics 机器人学论文速览
Fri, 20 Oct 2023
Totally 29 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

CCIL: Continuity-based Data Augmentation for Corrective Imitation Learning
Authors Liyiming Ke, Yunchu Zhang, Abhay Deshpande, Siddhartha Srinivasa, Abhishek Gupta
我们提出了一种新技术，通过生成校正数据来解释复合错误和干扰，从而增强模仿学习方法的鲁棒性。虽然现有方法依赖于交互式专家标签、额外的离线数据集或特定领域的不变性，但我们的方法除了访问专家数据之外还需要最少的额外假设。关键的见解是利用环境动态中的局部连续性来生成纠正标签。我们的方法首先根据专家演示构建动态模型，鼓励学习模型中的局部 Lipschitz 连续性。在局部连续区域中，该模型允许我们在演示附近生成纠正标签，但超出数据集中的实际状态和操作集。对这些增强数据进行训练可以增强智能体从扰动中恢复并处理复合错误的能力。

Local Non-Cooperative Games with Principled Player Selection for Scalable Motion Planning
Authors Makram Chahine, Roya Firoozi, Wei Xiao, Mac Schwager, Daniela Rus
博弈论运动规划器是控制交互式多智能体机器人系统的强大工具。事实上，与预测然后计划范式相反，博弈论规划者不会忽视问题的交互性质，并在考虑一个人的政策变化的同时预测其他主体的行为。然而，这是以计算复杂性为代价的，特别是当考虑的代理数量增加时。事实上，由多个代理进行规划很快就会变得棘手，从而使博弈论规划者失去了大规模规划候选者的资格。在本文中，我们提出了一种规划算法，可以在具有大量代理的机器人系统中使用博弈论规划器。我们的规划器基于信息局部性的现实，因此以地平线后退的方式与选定的代理子集一起部署本地博弈，以规划避免碰撞的轨迹。我们提出了五种不同原则的方案来选择游戏参与者并比较它们的防撞性能。

Eureka: Human-Level Reward Design via Coding Large Language Models
Authors Yecheng Jason Ma, William Liang, Guanzhi Wang, De An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
大型语言模型法学硕士在顺序决策任务的高级语义规划器方面表现出色。然而，利用它们来学习复杂的低级操作任务，例如灵巧的笔旋转，仍然是一个悬而未决的问题。我们弥补了这一根本差距并提出了 Eureka，这是一种由法学硕士支持的人类水平的奖励设计算法。 Eureka 利用最先进的 LLM（例如 GPT 4）卓越的零样本生成、代码编写和上下文改进功能，对奖励代码执行进化优化。由此产生的奖励可以用于通过强化学习来获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下，尤里卡生成的奖励功能优于专家人工设计的奖励。在包含 10 种不同机器人形态的 29 个开源 RL 环境的多样化套件中，Eureka 在 83 项任务上优于人类专家，平均标准化改进为 52 。 Eureka 的通用性还支持一种新的无梯度上下文学习方法，可以根据人类反馈 RLHF 进行强化学习，轻松结合人类输入来提高生成奖励的质量和安全性，而无需更新模型。

Influence of Team Interactions on Multi-Robot Cooperation: A Relational Network Perspective
Authors Yasin Findik, Hamid Osooli, Paul Robinette, Kshitij Jerath, S. Reza Ahmadzadeh
团队内的关系网络在许多现实世界的多机器人系统的性能中发挥着至关重要的作用。为了成功完成需要合作和协调的任务，不同的智能体（例如机器人）需要根据它们在团队中的定位来确定不同的优先级。然而，许多现有的多机器人协作算法将智能体视为可互换的，并且缺乏指导智能体应表现出的合作策略类型的机制。为了考虑协作任务中的团队结构，我们提出了一种新颖的算法，该算法使用包含代理间关系的关系网络来优先考虑某些代理。通过适当设计团队的关系网络，我们可以指导合作策略，从而导致完成指定任务的新行为的出现。我们在具有协作任务的多机器人环境中进行了六次实验。

Collaborative Adaptation: Learning to Recover from Unforeseen Malfunctions in Multi-Robot Teams
Authors Yasin Findik, Paul Robinette, Kshitij Jerath, S. Reza Ahmadzadeh
协作多智能体强化学习 MARL 方法解决了寻找有效的多智能体合作策略以实现多智能体团队中的个人或共同目标的挑战。然而，在现实世界中，代理可能会由于电池耗尽或机械问题等限制而遇到不可预见的故障。一旦智能体已经收敛于合作策略，MARL 中现有最先进的方法通常会从此类故障中缓慢恢复（如果有的话）。为了解决这一差距，我们提出了协作适应 CA 框架。 CA 引入了一种机制，通过利用代理间关系来指导协作并加速对不可预见故障的适应。

Age-Appropriate Robot Design: In-The-Wild Child-Robot Interaction Studies of Perseverance Styles and Robot's Unexpected Behavior
Authors Alicja Wr bel, Karolina r bek, Marie Monique Schaper, Paulina Zguda, Bipin Indurkhya
随着儿童机器人交互在日常生活环境中变得越来越普遍，研究机器人的错误如何影响儿童的行为非常重要。我们在两场主动阅读研讨会（一场在现代艺术博物馆举办，一场在学校举办）中探讨了机器人的意外行为如何影响儿童机器人互动。我们观察了 42 名儿童的行为和态度，他们来自三个年龄组：6 至 7 岁、8 至 10 岁和 10 至 12 岁。通过观察，我们发现了六种不同类型的令人惊讶的机器人行为：个性、运动故障、行为不一致、发音错误、延迟和冻结。通过定性分析，我们研究了儿童对每种行为的反应，并观察了各年龄段之间的相似点和差异。

Deep Metric Imitation Learning for Stable Motion Primitives
Authors Rodrigo P rez Dattari, Cosimo Della Santina, Jens Kober
模仿学习 IL 是一种用于直观机器人编程的强大技术。然而，确保习得行为的可靠性仍然是一个挑战。在到达运动的背景下，机器人应该始终如一地到达目标，无论其初始条件如何。为了满足这一要求，IL 方法通常采用专门的函数逼近器，通过构造来保证此属性。虽然有效，但这些方法存在一系列限制：1 它们无法充分利用现代深度神经网络 DNN 架构的功能，2 有些方法受到它们可以建模的运动系列的限制，导致 IL 功能不理想，3需要显式扩展来考虑考虑方向的运动几何形状。为了应对这些挑战，我们从深度度量学习文献中使用的三元组损失中汲取灵感，引入了一种新颖的稳定性损失函数。这种损失不会限制 DNN 的架构，并使学习策略能够产生准确的结果。此外，它很容易适应机器人状态空间的几何形状。我们提供了由这种损失引起的稳定性特性的证明，并在各种设置下凭经验验证了我们的方法。这些设置包括欧几里德和非欧几里德状态空间，以及模拟和真实机器人中的一阶和二阶运动。

Flexible Informed Trees (FIT*): Adaptive Batch-Size Approach for Informed Sampling-Based Planner
Authors Liding Zhang, Zhenshan Bing, Kejia Chen, Lingyun Chen, Fan Wu, Peter Krumbholz, Zhilin Yuan, Sami Haddadin, Alois Knoll
在路径规划和机器人运动规划的现代方法中，几乎可以肯定，渐近最优规划器在任何时候都主导着基于样本的规划器的基准。一个值得注意的例子是 Batch Informed Trees BIT，其中规划器迭代地确定到达探索区域内的顶点组的路径。然而，保持一致的批量大小对于初始寻路和最佳性能至关重要，这取决于有效的任务分配。本文介绍了灵活的知情树 FIT，这是一种集成自适应批量大小方法的新型规划器，用于增强各种环境中的任务调度。 FIT 采用灵活的方法，根据规划域的固有复杂性和系统当前的 n 维超椭球动态调整批量大小。通过不断优化批量大小，FIT 提高了计算效率和可扩展性，同时保持了解决方案的质量。这种自适应批量大小方法显着增强了规划者处理多样化和不断发展的问题领域的能力。

Multi-Robot Local Motion Planning Using Dynamic Optimization Fabrics
Authors Saray Bakker, Luzia Knoedler, Max Spahn, Wendelin B hmer, Javier Alonso Mora
在本文中，我们解决了多个靠近运行的机器人操纵器的实时运动规划问题。我们以动态结构的概念为基础，并将其扩展到多机器人系统，称为多机器人动态结构 MRDF。这种几何方法可以为高维系统提供非常高的规划频率，但代价是反应性和容易出现死锁。为了检测和解决死锁，我们提出了 Rollout Fabrics，其中 MRDF 以分散的方式进行前向模拟。

Ethical Aspects of Faking Emotions in Chatbots and Social Robots
Authors Bipin Indurkhya
说谎和假装情绪在人际交往中很常见，尽管存在风险，但在许多情况下，此类行为会带来社会效益。近年来，出现了许多社交机器人和聊天机器人，它们会伪造情绪或对用户进行欺骗性行为。在本文中，我提出了一些此类机器人和聊天机器人的示例，并分析了它们的道德方面。提出了三种可能证明某种撒谎或欺骗行为合理的场景。然后讨论了欺骗行为的五种方法：不欺骗、公然欺骗、巧妙欺骗、助推和自我欺骗，并分析了它们的含义。

Advancements in Radar Odometry
Authors Matteo Frosi, Mirko Usuelli, Matteo Matteucci
雷达里程计估计已成为自主导航领域的一项关键技术，可在各种环境条件下提供稳健且可靠的运动估计。尽管具有潜力，但雷达信号的复杂性以及与处理这些信号相关的固有挑战限制了该技术的广泛采用。本文旨在通过对现有雷达里程计估计方法提出新颖的改进来应对这些挑战，旨在提高不同场景下的准确性和可靠性。我们的流程包括过滤、运动补偿、定向表面点计算、平滑、一对多雷达扫描注册和姿态细化。所开发的方法通过平滑技术添加附加信息和连续扫描的对齐来增强对场景的局部理解，作为一对多配准后的细化。我们深入研究了每次改进对定位精度的贡献，并根据雷达理解的主要数据集（即牛津雷达 RobotCar、MulRan 和 Boreas 数据集）的序列对我们的系统进行了基准测试。

How Biomimetic Morphing Dorsal Fin Affects the Swimming Performance of a Free-swimming Tuna Robot
Authors Hongbing Huang, Zhonglu Lin, Wei Zheng, Jinhu Zhang, Wei Zhou, Yu Zhang
众所周知，海洋中的金枪鱼可以动态地改变它们的中鳍，以实现最佳的水动力性能，例如线性加速度和机动性。本研究在前期针对系留条件下中鳍水动力效应研究的基础上，继续探索金枪鱼变形背鳍在自由游动条件下的水动力功能，以更好地贴近现实生活情况。受到启发的机器鱼平台可以在三个维度上独立游泳，配备了一个仿生变形背鳍，通过磁性附着在机器鱼上。基于自由游动的机器鱼平台，我们研究了竖立的背鳍如何影响机器鱼的速度、运输成本COT以及不同频率和幅度下机器鱼的偏航角。竖立的背鳍对于提高机器鱼的偏航稳定性具有积极的作用。然而，在我们的测试中，它对速度和 COT 的影响很小。

Hibikino-Musashi@Home 2023 Team Description Paper
Authors Tomoya Shiba, Akinobu Mizutani, Yuga Yano, Tomohiro Ono, Shoshi Tokuno, Daiju Kanaoka, Yukiya Fukuda, Hayato Amano, Mayu Koresawa, Yoshifumi Sakai, Ryogo Takemoto, Katsunori Tamai, Kazuo Nakahara, Hiroyuki Hayashi, Satsuki Fujimatsu, Yusuke Mizoguchi, Moeno Anraku, Mayo Suzuka, Lu Shen, Kohei Maeda, Fumiya Matsuzaki, Ikuya Matsumoto, Kazuya Murai, Kosei Isomoto, Kim Minje, Yuichiro Tanaka, Takashi Morie, Hakaru Tamukoh
本文介绍了拟参加国内标准平台联赛的响野武藏之家的技术概况。该团队开发了用于训练机器人视觉系统的数据集生成器以及在人类支持机器人模拟器上运行的开源开发环境。该机器人系统包括自主开发的库，包括运动合成库和机器人操作系统上的开源软件。该团队的目标是实现一款在家中协助人类的家庭服务机器人，并不断参加比赛以评估所开发的系统。

Denoising Heat-inspired Diffusion with Insulators for Collision Free Motion Planning
Authors Junwoo Chang, Hyunwoo Ryu, Jiwoo Kim, Soochul Yoo, Joohwan Seo, Nikhil Prakash, Jongeun Choi, Roberto Horowitz
由于其灵活性和多模态，扩散模型已成为机器人技术中的强大工具。虽然其中一些方法可以有效解决复杂问题，但它们通常严重依赖于推理时间障碍物检测并且需要额外的设备。为了解决这些挑战，我们提出了一种方法，在推理时间内，仅同时生成可达到的目标并计划避开障碍物的运动，所有这些都来自单个视觉输入。我们方法的核心是新颖地使用避免碰撞扩散内核进行训练。通过对行为克隆和经典扩散模型的评估，我们的框架证明了其稳健性。

Iterative PnP and its application in 3D-2D vascular image registration for robot navigation
Authors Jingwei Song, Keke Yang, Zheng Zhang, Meng Li, Tuoyu Cao, Maani Ghaffari
本文报告了一种新的以机器人为中心的实时 3D 2D 血管图像对齐算法，该算法对异常值具有鲁棒性，并且可以对齐非刚性形状。很少有工作能够使血管介入机器人同时实现实时和准确的性能。这项工作弥合了介入机器人应用中的高精度 3D 2D 配准技术和计算效率要求。我们将基于中心线的血管 3D 2D 图像配准问题归类为迭代透视 n 点 PnP 问题，并建议在李流形上使用 Levenberg Marquardt 求解器。然后，引入了最近开发的再生内核希尔伯特空间RKHS算法来克服典型机器人场景中的大到小问题。最后，应用迭代重加权最小二乘法来有效地求解基于 RKHS 的公式。实验表明，所提出的算法可以处理超过 50 Hz 刚性和 20 Hz 非刚性的配准，并获得与其他作品类似的竞争配准精度。

PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
Authors Junghyun Kim, Gi Cheon Kang, Jaein Kim, Seoyun Yang, Minjoon Jung, Byoung Tak Zhang
语言条件机器人抓取 LCRG 旨在开发基于自然语言指令来地面和抓取物体的机器人。虽然能够识别钱包等个人物品的机器人可以与非专家用户更自然地交互，但当前的 LCRG 系统主要限制机器人只能理解通用表达。为此，我们引入了一个具有新颖数据集的任务场景 GraspMine，该数据集旨在通过从单个人类机器人交互中学习来定位和抓取给定个人指标的个人物体。为了解决 GraspMine 问题，我们提出了个性化抓取代理 PGA，它通过从用户环境中收集的原始图像集合传播用户给定的信息来学习个人对象。具体来说，PGA 通过用户呈现个人对象及其相关指示器来获取个人对象信息，然后 PGA 通过旋转该对象来检查该对象。根据获取的信息，PGA 通过我们提出的标签传播算法对内存中的对象进行伪标签。利用从交互中获取的信息和回忆中的伪标记对象，PGA 采用对象接地模型来掌握个人对象。 GraspMine 上的实验表明，PGA 在离线和在线设置中均显着优于基线方法，这表明其在现实世界场景中的有效性和个性化适用性。

Fully Onboard Low-Power Localization with Semantic Sensor Fusion on a Nano-UAV using Floor Plans
Authors Nicky Zimmerman, Hanna M ller, Michele Magno, Luca Benini
纳米尺寸的无人机非常适合室内应用和近距离接触人类。为了实现自主性，纳米无人机必须能够在其操作环境中进行自我定位。由于船上的传感和计算资源有限，这是一项特别具有挑战性的任务。这项工作提出了一种在线和机载方法，用于在带有语义信息注释的平面图中进行本地化。与基于传感器的地图不同，平面图很容易获得，并且不会增加部署的成本和时间。为了克服在稀疏地图中定位的困难，所提出的方法融合了来自小型飞行时间传感器和语义线索的几何信息。通过在无人机上的高性能多核微控制器上部署最先进的对象检测模型，从图像中提取语义信息，每帧仅消耗 2.5mJ，执行时间为 38ms。在我们的评估中，我们在现实世界的办公环境中进行了全球本地化，取得了 90 的成功率。

Online Multi-IMU Calibration Using Visual-Inertial Odometry
Authors Jacob Hartzer, Srikanth Saripalli
这项工作提出了一种集中式多 IMU 滤波器框架，具有针对不同步惯性测量单元的在线内在和外在校准，该框架对校准参数的变化具有鲁棒性。基于 EKF 的新颖方法无需使用刚体几何约束即可估计传感器系统的位置和旋转偏移及其固有偏差。此外，该滤波器在使用传感器总数方面具有灵活性，同时利用常用的 MSCKF 框架进行相机测量。该滤波器框架已使用蒙特卡罗模拟和实验进行了验证。在仿真和实验中，在所提出的滤波器框架内使用多个 IMU 测量流优于在滤波器预测步骤中使用单个 IMU，同时还能生成一致且准确的初始校准误差估计。与当前最先进的优化器相比，该滤波器为每个传感器产生类似的内在和外在校准参数。

Object-Aware Impedance Control for Human-Robot Collaborative Task with Online Object Parameter Estimation
Authors Jinseong Park, Yong Sik Shin, Sanghyun Kim
人机物理交互 pHRI 可以提高机器人的自主性并减少对人类的体力需求。在本文中，我们考虑一个具有相当长的对象并且没有对象参数的先验知识的协作任务。提出了一种具有在线对象参数估计器和笛卡尔对象感知阻抗控制器的集成控制框架来实现复杂的场景。在运输任务期间，当机器人和人类抬起物体时，在线估计物体参数。扰动运动被纳入所需轨迹的零空间中，以提高估计器的精度。使用实时估计结果设计了对象感知阻抗控制器，以通过对象有效地将预期的人体运动传输到机器人。

Asynchronous Distributed Smoothing and Mapping via On-Manifold Consensus ADMM
Authors Daniel McGann, Kyle Lassak, Michael Kaess
在本文中，我们提出了一种用于共识同步定位和建图 CSLAM 的完全分布式、异步和通用优化算法。多机器人团队要求智能体能够及时准确地解决其自身状态以及团队中其他机器人的状态。为了优化这个解决方案，我们开发了一个基于共识 ADMM 的 CSLAM 后端，称为 MESA Manifold、基于边缘的可分离 ADMM。 MESA 是完全分布式的，可以容忍单个机器人的故障，异步可以容忍实际的网络条件，并且具有处理任何 CSLAM 问题公式的通用目的。

A field study on Polish customers' attitude towards a service robot in a cafe
Authors Maria Kiraga, Zofia Samsel, Bipin Indurkhya
波兰越来越多的商店采用机器人作为顾客助理或促销工具。然而，客户对这种新奇事物的态度仍有待探索。这项研究的重点是社交机器人在自助咖啡馆中的作用。波兰此前从未探索过这一领域，其他国家也没有太多研究。我们使用遥控机器人 Nao 在两家咖啡馆进行了实地研究，它坐在柜台旁边，充当人类咖啡师的助手。我们观察客户行为，对客户进行半结构化访谈和问卷调查。结果表明，波兰客户对机器人持中立态度且缺乏安全感。然而，他们并没有表现出完全不喜欢这些技术。

Plan-Guided Reinforcement Learning for Whole-Body Manipulation
Authors Mengchao Zhang, Jose Barreiros, Aykut Ozgun Onol
由于接触交互规划固有的快速增长的组合学，综合复杂的全身操纵行为面临着根本性的挑战。虽然基于模型的方法在解决长期操纵任务方面显示出了有希望的结果，但它们通常在严格的假设下工作，例如已知的模型参数、对环境状态的敏锐观察和简化的动力学，导致计划无法轻松转移到硬件。基于学习的方法，例如模仿学习 IL 和强化学习 RL ，已被证明在分布状态下运行时非常稳健，但它们需要大量的人工监督。具体来说，无模型强化学习需要繁琐的奖励塑造过程。另一方面，IL 方法依赖于涉及先进远程操作方法的人类演示。在这项工作中，我们提出了一种计划引导强化学习 PGRL 框架，结合了基于模型的计划和强化学习的优点。我们的方法需要最少的人工监督，因为它依赖于基于模型的规划器生成的计划来指导强化学习中的探索。作为交换，强化学习通过域随机化获得了更稳健的策略。我们在 Punyo 上的全身操纵任务中测试了这种方法，Punyo 是一种上半身人形机器人，配有顺应的充气手臂覆盖物，可以旋转并举起一个大盒子。

Few-Shot In-Context Imitation Learning via Implicit Graph Alignment
Authors Vitalis Vosylius, Edward Johns
考虑以下问题，给出跨几个不同对象的任务的一些演示，机器人如何学习在新的、以前未见过的对象上执行相同的任务这是具有挑战性的，因为一个类中的对象种类繁多，使得很难推断新对象与演示中的对象之间的任务相关关系。我们通过将模仿学习表述为对象的图形表示之间的条件对齐问题来解决这个问题。因此，我们表明，这种条件允许进行上下文学习，机器人可以在演示后立即对一组新对象执行任务，而无需任何有关对象类的先验知识或任何进一步的培训。在我们的实验中，我们探索并验证了我们的设计选择，并且我们表明，我们的方法对于几个现实世界的日常任务的少量学习非常有效，同时优于基线。

FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
Authors Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad
在这项工作中，我们解决了 3D 对象识别这一具有挑战性的任务，而不依赖于现实世界的 3D 标记数据。我们的目标是预测单个 RGB D 图像中对象的 3D 形状、大小和 6D 姿态，在类别级别进行操作，并在推理过程中消除对 CAD 模型的需求。虽然现有的自监督方法在这一领域取得了长足的进步，但它们常常因非端到端处理、对不同对象类别的单独模型的依赖以及隐式重建模型训练过程中表面提取缓慢而导致效率低下，从而阻碍了速度以及 3D 识别过程的现实世界适用性。我们提出的方法利用多阶段训练管道，旨在有效地将合成性能转移到现实世界领域。这种方法是通过在合成域训练期间结合 2D 和 3D 监督损失来实现的，然后在两个额外的学习阶段将 2D 监督和 3D 自监督损失结合到现实世界数据上。

Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
Authors Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc Van Gool
自动驾驶系统的现实部署需要其组件在车上实时运行，包括预测周围交通参与者未来轨迹的运动预测模块。现有的以代理为中心的方法在公共基准测试中表现出了出色的性能。然而，随着要预测的代理数量的增加，它们面临着计算开销高和可扩展性差的问题。为了解决这个问题，我们引入了具有相对姿势编码 KNARPE 的 K 最近邻注意力机制，这是一种新颖的注意力机制，允许 Transformers 使用成对相对表示。然后，基于 KNARPE，我们提出了具有相对姿势编码 HPTR 的异构折线变换器，这是一个能够在在线推理期间实现异步令牌更新的分层框架。通过在代理之间共享上下文并重用未更改的上下文，我们的方法与以场景为中心的方法一样高效，同时与最先进的以代理为中心的方法性能相当。 Waymo 和 Argoverse 2 数据集上的实验表明，HPTR 在不应用昂贵的后处理或模型集成的端到端方法中实现了卓越的性能。

Impact of Relational Networks in Multi-Agent Learning: A Value-Based Factorization View
Authors Yasin Findik, Paul Robinette, Kshitij Jerath, S. Reza Ahmadzadeh
智能体之间的有效协调与合作对于实现多智能体系统中的单独或共同目标至关重要。在许多现实世界的多智能体系统中，智能体具有不同的能力和约束，因此有必要根据智能体的特定属性确定智能体的优先级，以确保团队内成功的协调与合作。然而，现有的协作多智能体算法大多没有考虑到这些个体差异，并且缺乏有效的机制来指导协调策略。我们提出了一种新颖的多代理学习方法，它将关系意识融入到基于价值的分解方法中。给定一个关系网络，我们的方法利用代理之间的关系，通过优先考虑某些代理而不是其他代理来发现新的团队行为，并考虑到它们在合作任务中的差异。我们通过在两个不同环境中进行十五次实验来评估我们提出的方法的有效性。结果表明，我们提出的算法可以影响和塑造团队行为、指导合作策略并加速代理学习。

Fine-Tuning Generative Models as an Inference Method for Robotic Tasks
Authors Orr Krupnik, Elisei Shafer, Tom Jurgenson, Aviv Tamar
适应性强的模型可以极大地有益于在现实世界中运行的机器人代理，使它们能够应对新的和变化的条件。虽然贝叶斯推理等方法是使模型适应证据的经过充分研究的框架，但我们以深度生成模型的最新进展为基础，这些模型极大地影响了机器人技术的许多领域。利用现代 GPU 加速，我们研究如何快速调整神经网络模型的样本生成以适应机器人任务中的观察结果。我们提出了一种简单且通用的方法，适用于各种深度生成模型和机器人环境。关键思想是使用交叉熵方法，通过将模型拟合到与观察到的证据相匹配的生成样本来快速微调模型。

Lidar Panoptic Segmentation and Tracking without Bells and Whistles
Authors Abhinav Agarwalla, Xuhua Huang, Jason Ziglar, Francesco Ferroni, Laura Leal Taix , James Hays, Aljo a O ep, Deva Ramanan
最先进的激光雷达全景分割 LPS 方法遵循自下而上的以分割为中心的方式，其中它们通过利用聚类来获取对象实例来构建语义分割网络。在本文中，我们重新思考了这种方法，并提出了一种用于 LPS 和跟踪的极其简单但有效的以检测为中心的网络。我们的网络采用模块化设计，并针对全景分割和跟踪任务的各个方面进行了优化。我们网络的核心组件之一是对象实例检测分支，我们使用点级模态注释对其进行训练，如以分割为中心的数据集中提供的那样。在没有模态长方体注释的情况下，我们使用轨迹级监督来回归模态质心和对象范围，轨迹级监督提供有关对象大小的信息，由于遮挡和激光雷达数据的稀疏性质，无法从单次扫描中推断出对象大小。我们通过学习将激光雷达点与检测到的质心相关联来获得细粒度的实例片段。

Online Learning and Planning in Cognitive Hierarchies
Authors Bernhard Hengst, Maurice Pagnucco, David Rajaratnam, Claude Sammut, Michael Thielscher
复杂的机器人行为通常需要集成多个机器人和人工智能技术和组件。将这些不同的组件集成到一个连贯的系统中，同时确保全局属性和行为，是认知机器人技术的一项重大挑战。使用正式框架对组件之间的交互进行建模可能是应对这一挑战的重要一步。在本文中，我们扩展了 Clark et al., 2016 现有的正式框架，以对机器人系统的复杂综合推理行为进行建模，从符号规划到策略和转换系统的在线学习。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com