【AI视野·今日Robot 机器人论文速览第二十四期】Thu, 30 Sep 2021

AI视野·今日CS.Robotics 机器人学论文速览Thu, 30 Sep 2021Totally 22 papers????上期速览✈更多精彩请移步主页Daily Robotics PapersA secure home automation prototype built on raspberry-piAuthors Arya Tanmay Gupta, Humani Gupta, Musk

hitrjj

266人浏览 · 2021-09-30 19:45:52

hitrjj · 2021-09-30 19:45:52 发布

AI视野·今日CS.Robotics 机器人学论文速览
Thu, 30 Sep 2021
Totally 22 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

A secure home automation prototype built on raspberry-pi
Authors Arya Tanmay Gupta, Humani Gupta, Muskan Sharma, Priyanka Khanna
随着传感器、无线移动通信、嵌入式系统的发展，物联网技术已广泛应用于智能电表、公安、智能建筑等领域。物联网因其巨大的市场前景，受到了世界各国政府的密切关注。

DORA: Distributed Online Risk-Aware Explorer
Authors David Vielfaure, Samuel Arseneault, Pierre Yves Lajoie, Giovanni Beltrame
未知环境的探索是机器人领域的一个重要挑战。虽然单个机器人可以单独完成这项任务，但有证据表明，机器人组可以更有效地完成这项任务，在地形覆盖和故障鲁棒性方面具有优势。探索可以通过信念图进行指导，信念图提供了基于风险管理或奖励探索地形的哪个部分感兴趣的概率信息。这个过程可以通过在公共服务器上构建集体信念图来集中协调。但是，依赖中央处理站会导致系统出现通信瓶颈和单点故障。在本文中，我们提出了分布式在线风险感知 DORA Explorer，这是一种利用分散信息共享来更新公共风险信念图的探索系统。

Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay Randomization
Authors Chieko Sarah Imai, Minghao Zhang, Yuchen Zhang, Marcin Kierebinski, Ruihan Yang, Yuzhe Qin, Xiaolong Wang
在具有各种障碍物、动态环境和不平坦地形的复杂环境中，为四足机器人开发强大的视觉引导控制器非常具有挑战性。虽然强化学习 RL 为在模拟中具有视觉输入的敏捷运动技能提供了一个有前途的范例，但在现实世界中部署 RL 策略仍然非常具有挑战性。我们的主要见解是，除了域间隙的差异之外，在模拟和现实世界之间的视觉外观方面，来自控制管道的延迟也是造成困难的一个主要原因。在本文中，我们提出了多模态延迟随机化 MMDR 来解决训练 RL 代理时的这个问题。具体来说，我们通过使用过去的观察来模拟真实硬件的延迟，随机周期采样，用于本体感觉和视觉。我们在没有任何预定义控制器或参考运动的物理模拟器中训练端到端控制的 RL 策略，并将其直接部署在野外运行的真实 A1 四足机器人上。我们在具有复杂地形和障碍物的不同户外环境中评估我们的方法。我们证明机器人可以高速平稳地移动，避开障碍物，并在基线上显示出显着的改进。

Improving Safety in Deep Reinforcement Learning using Unsupervised Action Planning
Authors Hao Lun Hsu, Qiuhua Huang, Sehoon Ha
深度强化学习深度 RL 的主要挑战之一是确保训练和测试阶段的安全。在这项工作中，我们提出了一种新的无监督动作规划技术，以提高策略强化学习算法的安全性，例如信任域策略优化 TRPO 或近端策略优化 PPO。我们通过将将代理从危险情况中拯救出来的所有恢复操作历史存储到单独的安全缓冲区中，并在代理遇到类似状态时找到最佳恢复操作来设计我们的安全意识强化学习。由于此功能需要算法查询相似状态，因此我们使用无监督学习算法实现了所提出的安全机制，k 表示聚类。我们在涵盖导航和操作的六个机器人控制任务上评估所提出的算法。我们的结果表明，在离散和连续控制问题中，与多个基线相比，所提出的安全 RL 算法可以获得更高的奖励。

Simulation-based Bayesian inference for multi-fingered robotic grasping
Authors Norman Marlier, Olivier Br ls, Gilles Louppe
多指机器人抓取是通用采摘和灵巧操作的不可否认的垫脚石。然而，由于其丰富的非平滑接触动力学或传感器噪声，多指抓手的控制仍然具有挑战性。在这项工作中，我们的目标是通过机器人在其环境中的完全随机前向模拟执行贝叶斯后验推理来规划手部配置，从而稳健地考虑系统中的许多不确定性。虽然以前的方法要么依赖于似然函数的简化代理，要么试图学习直接预测最大似然估计，但我们带来了一种新的基于模拟的方法，用于基于似然比的深度神经网络代理的完整贝叶斯推理。手部配置是通过直接优化后得到的摊销和可微表达来找到的。通过提出通过神经后验的黎曼流形优化程序来考虑配置空间的几何形状。

Adaptive-Resolution Gaussian Process Mapping for Efficient UAV-based Terrain Monitoring
Authors Liren Jin, Julius R ckin, Stefan H. Kiss, Teresa Vidal Calleja, Marija Popovi
无人驾驶飞行器 UAV 在各种环境监测任务中迅速普及。考虑到有限的机载资源限制了操作时间和计算能力，自主操作的一个关键要求是能够在线执行高效的环境映射和路径规划。为了解决这个问题，我们提出了一种基于 Nd 树结构和高斯过程 GP 的地形映射自适应分辨率方法。我们的方法可以使用更高的地图分辨率保留感兴趣区域的细节，同时以较粗的分辨率压缩不感兴趣区域的信息，以实现环境的紧凑地图表示。我们方法的一个关键方面是对二维网格单元的空间相关性进行编码的积分内核，它能够以理论上合理的方式合并无趣的网格单元。结果表明，我们的方法在不影响映射质量的情况下在时间和内存消耗方面更有效。由此产生的自适应分辨率图也加速了在线自适应路径规划。

Schmidt or Compressed filtering for Visual-Inertial SLAM?
Authors Hongkyoon Byun, Jonghyuk Kim, Fernando Vanegas, Felipe Gonzalez
与其他传感器相比，视觉惯性 SLAM 因其重量轻、成本效益高、信息丰富等优点而被广泛研究。已经开发了多状态约束滤波器 MSCKF 及其施密特版本，以解决计算成本，将关键帧视为静态干扰参数，导致次优性能。我们提出了一种新的压缩 MSCKF，它可以以适度的计算成本提高准确性。通过保持压缩形式的信息增益，它可以限制为数学 OL，其中 L 是局部关键帧的数量。

Iterative Smoothing and Outlier Detection for Underwater Navigation
Authors Sajad Hassan, Hongkyoon Byun, Jonghyuk Kim
由于水下环境中能见度差和异常值的存在，水下视觉惯性导航具有挑战性。导航性能与异常检测和消除密切相关。现有方法假设惯性里程计对于异常值检测足够准确，这对于低成本惯性应用是无效的。我们提出了一种针对水下导航的新型迭代平滑和异常值检测方法。

Towards a Pantograph-based Interventional AUV for Under-ice Measurement
Authors Hongkyoon Byun, Jonghyuk Kim, Dikai Liu, Jonathan Woolfrey
本文讨论了一种新型介入机器人平台的设计，旨在在南极环境中的薄冰下进行自主采样和测量。我们提出了一种受电弓机构，它可以在接触过程中有效地对表面产生恒定的相互作用力，这对于可靠的测量至关重要。

Lyapunov-stable neural-network control
Authors Hongkai Dai, Benoit Landry, Lujie Yang, Marco Pavone, Russ Tedrake
深度学习对机器人技术产生了深远的影响。具体来说，深度强化学习算法在为各种任务合成神经网络控制器方面非常有效。然而，尽管取得了这种经验上的成功，这些控制器仍然缺乏对其性能的理论保证，例如李雅普诺夫稳定性，即保证闭环系统的所有轨迹在控制策略下收敛到目标状态。这与传统的基于模型的控制器设计形成鲜明对比，其中像 LQR 这样的原则方法可以合成具有可证明保证的稳定控制器。为了解决这一差距，我们提出了一种通用方法来合成 Lyapunov 稳定神经网络控制器，以及神经网络 Lyapunov 函数以同时证明其稳定性。我们的方法将 Lyapunov 条件验证公式化为混合整数线性规划 MIP。我们的 MIP 验证器要么证明李雅普诺夫条件，要么生成有助于改进候选控制器和李雅普诺夫函数的反例。我们还提出了一个优化程序来计算闭环系统的吸引力区域的内部近似值。我们将我们的方法应用于机器人，包括倒立摆、2D 和 3D 四旋翼，并展示我们的神经网络控制器优于基线 LQR 控制器。

TrajectoTree: Trajectory Optimization Meets Tree Search for Planning Multi-contact Dexterous Manipulation
Authors Claire Chen, Preston Culbertson, Marion Lepert, Mac Schwager, Jeannette Bohg
灵巧的操作任务通常需要接触切换，手指与物体接触和断开接触。我们提出了一种为涉及接触切换的灵巧操作任务规划轨迹的方法，该方法使用接触隐式轨迹优化 CITO 并增强了高级离散接触序列规划器。我们首先使用高级规划器来找到给定所需对象轨迹的手指接触开关序列。通过这个接触序列计划，我们在 CITO 问题中施加了额外的约束。我们表明，对于四指平面操作场景，我们的方法找到的轨迹比一般 CITO 基线快约 7 倍。

Sample-Efficient Safety Assurances using Conformal Prediction
Authors Rachel Luo, Shengjia Zhao, Jonathan Kuck, Boris Ivanovic, Silvio Savarese, Edward Schmerling, Marco Pavone
在高风险机器人应用中部署机器学习模型时，检测不安全情况的能力至关重要。预警系统可以在不采取纠正措施的情况下，在即将发生不安全情况时发出警报。为了可靠地提高安全性，这些警告系统应该有一个可证明的假阴性率，即在不安全的情况下，在没有警报的情况下发生的概率少于 epsilon。在这项工作中，我们提出了一个框架，该框架将称为共形预测的统计推理技术与机器人环境动力学模拟器相结合，以调整警告系统，以使用少至 1 个 epsilon 数据点可证明地实现 epsilon 假阴性率。

Learning Periodic Tasks from Human Demonstrations
Authors Jingyun Yang, Junwu Zhang, Connor Settle, Akshara Rai, Rika Antonova, Jeannette Bohg
我们开发了一种从视觉演示中学习周期性任务的方法。核心思想是利用策略结构中的周期性来对任务的周期性方面进行建模。我们使用主动学习来优化有节奏的动态运动原语 rDMP 的参数，并提出一个目标，以最大限度地提高机器人操纵的物体运动与人类视频演示中所需运动之间的相似性。我们考虑具有可变形物体和颗粒状物质的任务，其状态很难用布表示和跟踪擦拭表面、缠绕电缆线、用勺子搅拌颗粒状物质。我们的方法不需要跟踪标记或手动注释。初始训练数据由 10 分钟的机器人和人类与物体的随机不配对交互视频组成。我们将这些用于关键点模型的无监督学习，以获得与任务无关的视觉对应关系。然后，我们使用贝叶斯优化从几个机器人试验中的单个人类视频演示中优化 rDMP。

Localization of a Smart Infrastructure Fisheye Camera in a Prior Map for Autonomous Vehicles
Authors Subodh Mishra, Armin Parchami, Enrique Corona, Punarjay Chakravarty, Ankit Vora, Devarth Parikh, Gaurav Pandey
这项工作提出了一种在先验地图中定位由鱼眼相机组成的智能基础设施节点的技术。这些摄像头可以检测到自动驾驶汽车 AV 视线之外的物体，并使用 V2X 技术将该信息发送给 AV。但是，为了使该信息对 AV 有用，应在 AV 用于其自身导航的先前地图的参考系中提供检测到的对象。因此，了解基础设施相机相对于先验地图的准确姿势很重要。在这里，我们建议分两步解决这个定位问题，文本 i 我们在鱼眼图像的透视投影和来自先验地图的鸟瞰图 BEV 卫星图像之间执行特征匹配以估计初始相机姿势，文本 ii 我们改进初始化最大化鱼眼图像像素值强度与地图数据中 3D LiDAR 点反射率之间的互信息 MI。

Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual Observations
Authors Fernando Acero, Kai Yuan, Zhibin Li
腿式机器人使用基于模型的控制或数据驱动的深度强化学习在盲人行走中取得了显着的性能。为了主动导航和穿越各种地形，积极使用视觉感知变得不可或缺，这项工作旨在利用稀疏视觉观察的使用，在以人为中心的环境中，在一系列常见的颠簸、坡道和楼梯上实现感知运动。我们首先制定了可以表示感兴趣的不平坦表面的最小视觉输入的选择，并提出了一个集成了这种外部感受和本体感受数据的学习框架。我们专门选择了状态观察并设计了一个培训课程，以在一系列不同的地形上更有效地学习反馈控制策略。使用广泛的基准，我们在需要在平坦地面上进行全方位行走和在有障碍物的地形上向前移动的任务中验证学习到的策略，显示出较高的遍历成功率。特别是，机器人使用深度测量以最小的视觉感知执行自主感知运动，这很容易从激光雷达或 RGB D 传感器获得，并成功地展示了在 20 厘米步高（即其腿的 50 厘米）的高楼梯上的稳健上升和下降

Joint Communication and Motion Planning for Cobots
Authors Mehdi Dadvar, Keyvan Majd, Elena Oikonomou, Georgios Fainekos, Siddharth Srivastava
在与人类共同工作的场景中越来越多地部署机器人，揭示了计算机器人行为中复杂的安全和效率挑战。人与人之间的流动是这一前沿领域中最基本但也是最关键的问题之一。虽然有几种方法从纯粹的导航角度解决了这个问题，但缺乏与人类交流的统一范式限制了他们防止死锁和计算可行解决方案的能力。本文提出了一种联合通信和运动规划框架，该框架在计算机器人运动计划时从机器人通信信号的任意输入集中进行选择。它使用嘈杂的传感器模型模拟了人类同事对这些通信的不完美感知，并通过灵活的成本函数促进了各种社会工作场所合规优先级的规范。

Gaussian Belief Space Path Planning for Minimum Sensing Navigation
Authors Ali Reza Pedram, Riku Funada, Takashi Tanaka
我们为移动机器人在充满障碍物的环境中导航提出了一种路径规划方法，以生成可通过适度传感工作追踪的参考路径。所需参考路径的特征是障碍物填充的高斯置信流形中的最短路径，该流形配备了新的信息几何距离函数。我们引入的距离函数被证明是一个不对称的拟伪度量，可以解释为控制高斯信念所需的最小信息增益。提出了一种基于RRT的数值求解算法来求解公式化的最短路径问题。为了深入了解所提出算法的渐近最优性，我们表明所考虑的路径长度函数对于全变的拓扑是连续的。

Competence-Aware Path Planning via Introspective Perception
Authors Sadegh Rabiee, Connor Basich, Kyle Hollins Wray, Shlomo Zilberstein, Joydeep Biswas
长时间部署在现实世界中的机器人需要对意外故障进行推理，学会预测它们，并主动采取行动避免未来发生故障。现有的能力感知规划方法要么是基于模型的，需要明确列举已知的故障模式，要么纯粹是统计的，使用状态和位置特定的故障统计来推断能力。相反，我们提出了一种结构化模型自由的能力感知规划方法，通过推理由于感知错误导致的计划执行失败，而不需要先验枚举失败模式或需要特定于位置的失败统计数据。我们通过内省感知 CPIP 引入了能力感知路径规划，这是一种贝叶斯框架，可在新的部署环境中迭代学习和利用任务级能力。 CPIP 将能力意识规划问题分解为两个部分。首先，在新环境中部署之前，通过内省感知在无模型和位置不可知的环境中学习感知错误。其次，在实际部署期间，任务级别故障的预测是在上下文感知设置中学习的。

On Assessing the Usefulness of Proxy Domains for Developing and Evaluating Embodied Agents
Authors Anthony Courchesne 1 and 2 , Andrea Censi 3 , Liam Paull 1 and 2 1 Mila, 2 Universit de Montr al, 3 ETH Z rich
在许多情况下，完全在将部署代理的目标域上开发和评估代理是不可能或不切实际的。在机器人技术中尤其如此，在硬件上进行实验比在模拟中进行的要困难得多。在基于学习的代理的情况下，这可以说变得更是如此。为此，最近相当多的努力致力于开发越来越逼真和更高保真度的模拟器。然而，我们缺乏任何原则性的方法来评估代理域的好坏，特别是它在帮助我们实现构建在目标域中表现良好的代理的最终目标方面有多有用。在这项工作中，我们研究了解决这一需求的方法。我们首先明确区分代理域的两种用途，这两种用途通常被混为一谈：1 作为代理性能的忠实预测器的能力和 2 作为学习的有用工具的能力。在本文中，我们试图阐明代理域的作用，并建立新的代理有用性 PU 指标来比较不同代理域的有用性。我们提出相对预测 PU 来评估代理域的预测能力，并提出学习 PU 来量化代理作为生成学习数据的工具的有用性。此外，我们认为代理的价值取决于它用于帮助解决的任务。

Learning Dynamics Models for Model Predictive Agents
Authors Michael Lutter, Leonard Hasenclever, Arunkumar Byravan, Gabriel Dulac Arnold, Piotr Trochim, Nicolas Heess, Josh Merel, Yuval Tassa
基于模型的强化学习涉及从数据中学习文本动态模型，然后使用该模型来优化行为，最常见的是使用在线文本规划器。最近沿着这些方向的许多研究提出了一组特定的设计选择，涉及问题定义、模型学习和规划。鉴于多种贡献，很难评估每个贡献的影响。本文旨在消除不同设计选择在学习动力学模型中的作用，通过将它们的性能与模拟器的真实模型进行规划进行比较。首先，我们从 DeepMind Control Suite 的 5 个域上的无模型代理的训练序列中收集了丰富的数据集。其次，我们以受监督的方式训练前馈动力学模型，并在改变和分析不同模型设计选择的同时评估规划器性能，包括集成、随机性、多步训练和时间步长。除了定量分析，我们还描述了一组定性发现、经验法则和未来研究方向，用于使用学习动态模型进行规划。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com