【AI视野·今日Robot 机器人论文速览第十四期】Thu, 24 Jun 2021

AI视野·今日CS.Robotics 机器人学论文速览Thu, 24 Jun 2021Totally 10 papers????上期速览✈更多精彩请移步主页Daily Robotics PapersCoarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via DiscretisationAuth

hitrjj

659人浏览 · 2021-06-25 20:31:59

hitrjj · 2021-06-25 20:31:59 发布

AI视野·今日CS.Robotics 机器人学论文速览
Thu, 24 Jun 2021
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation
Authors Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison
在过去几年中反映出，深度加强学习RL的最大突破一直处于离散行动领域。然而，机器人操纵本质上是连续的控制环境，但由于参与者和评论家的联合优化，这些连续控制增强学习算法通常依赖于样本估计的方法，这是一个样本效率低下和固有的难以训练。为此，我们探讨我们如何将离散动作R1算法的稳定性带到机器人操作域。我们通过使用离散的下一个最佳姿势代理替换连续的下一个最佳姿势代理来扩展最近发布的ARM算法。鉴于其有界性质，旋转的旋转自由化是微不足道的，而翻译本质上是无界的，则难以藐视。我们通过离散的3D空间来制定翻译预测作为体素预测问题，然而，大工作空间的Voxelatization是记忆密集型的，并且不能与高密度的体素合作，这是对机器人操纵所需的分辨率至关重要。因此，我们建议通过逐渐增加分辨率来以粗糙的方式施加这种体素预测。在每个步骤中，我们将最高值的体素提取为预测位置，然后将其用作下一步中更高分辨率Voxelisation的中心。在几个步骤中施加这种粗略预测，给出了对翻译的近无损预测。我们表明，我们的新粗略算法能够比连续控制等同物更有效地完成Rlbench任务，甚至在不到7分钟的时间内培训一些现实世界任务，只有3个演示。此外，我们表明，通过移动到体素表示，我们能够轻松地从多个摄像机中纳入观察。

Decentralized Spatial-Temporal Trajectory Planning for Multicopter Swarms
Authors Xin Zhou, Zhepei Wang, Xiangyong Wen, Jiangchao Zhu, Chao Xu, Fei Gao
具有分散结构的多板群具有灵活性和稳健性的性质，而有效的空间时间轨迹规划仍然是一个挑战。本报告介绍了分散的空间时间轨迹规划，它将名为Minco的良好形成的轨迹表示变为多代理方案。我们的方法可确保对杂乱环境中的群体或安全要求的协调来确保每个特工的高质量本地规划。然后，将局部轨迹生成作为无约束优化问题，其有效地以毫秒为单位解决。此外，分散的异步机制旨在触发每个代理的本地规划。提出了一种系统的解决方案，详细描述了仔细的工程考虑。广泛的基准和室内户外实验验证了其广泛的适用性和高质量。我们的软件将被释放为社区的参考。

Formalizing the Execution Context of Behavior Trees for Runtime Verification of Deliberative Policies
Authors Michele Colledanchise, Giuseppe Cicala, Daniele E. Domenichelli, Lorenzo Natale, Armando Tacchella
我们的研究旨在启用机器人控制架构中的审议组件的自动化验证。我们专注于行为树BTS执行背景的正式化，以提供可扩展，但正式接地的方法，以实现运行时验证并防止意外的机器人行为妨碍部署。为此，我们考虑一种消息传递模型，其容纳并行组件的同步和异步组成，其中BTS和其他组件根据机器人软件架构中通常采用的通信模式执行和交互。我们介绍了一种正式的财产规范语言来编码要求并构建运行时监视器。我们在仿真和真实机器人上进行了一组实验，展示了我们在现实应用中的方法的可行性，以及它在典型的机器人软件架构中的集成。我们还提供了OS级虚拟化环境，可在模拟场景中重现实验。

Uncertainty-Aware Model-Based Reinforcement Learning with Application to Autonomous Driving
Authors Jingda Wu, Zhiyu Huang, Chen Lv
为了进一步提高加固学习RL的学习效率和性能，请在本文中提出了一种基于新颖的不确定性意识模型的RL UA MBRL框架，然后在各种任务方案下实现并验证自动驾驶。首先，建立具有不确定性评估能力的动作条件集合模型作为虚拟环境模型。然后，基于自适应截断方法开发了一种基于新的不确定感知模型的RL框架，提供了代理与环境模型之间的虚拟交互，提高了RL S培训效率和性能。然后，在整个驾驶场景下，验证和比较了开发的算法以结束以结束到结束自主车辆控制任务，验证并与现有方法的状态进行比较。验证结果表明，在学习效率和实现性能方面，所提出的UA MBRL方法基于现有的基于模型和模型免费RL方法。结果还展示了所提出的方法在各种自治驾驶场景下对适应性和鲁棒性的良好能力。

Collaborative Visual Inertial SLAM for Multiple Smart Phones
Authors Jialing Liu, Ruyu Liu, Kaiqi Chen, Jianhua Zhang, Dongyan Guo
映射的效率和准确性在大型场景和长期AR应用中至关重要。多代理合作SLAM是多用户AR交互的前提。多种智能手机的合作有可能提高任务完成的效率和稳健性，并可以完成单个代理人无法做到的任务。但是，它取决于强大的通信，有效的位置检测，鲁棒映射和代理之间的有效信息共享。我们提出了一种在具有集中式架构的多个IOS移动设备上部署的多智能协作单眼视觉惯性SLAM。每个代理可以独立地探索环境，在线运行视觉惯性内径模块，然后将所有测量信息发送到具有更高计算资源的中央服务器。服务器管理所接收的所有信息，检测重叠区域，合并并优化地图，并在需要时与代理共享信息。我们已经验证了系统在公共数据集和真实环境中的性能。所提出的系统的映射和融合的准确性与Vins Mono相当，需要更高的计算资源。

Prevention and Resolution of Conflicts in Social Navigation -- a Survey
Authors Reuth Mirsky, Xuesu Xiao, Justin Hart, Peter Stone
随着在共享人体机器人环境中具有机器人的接近目标，在这种情况下导航变得至关重要和理想。机器人的最新发展已经遇到并解决了在混合人体机器人环境中导航的一些挑战，近年来，我们遵守相关工作的激增，专门针对如何处理社会导航中代理商之间的冲突问题。这些贡献提供了模型，算法和评估度量，然而，随着该研究领域固有的跨学科，许多相关论文都不可比，研究人员之间没有标准词汇。

Robust Task Scheduling for Heterogeneous Robot Teams under Capability Uncertainty
Authors Bo Fu, William Smith, Denise Rizzo, Matthew Castanier, Maani Ghaffari, Kira Barton
本文开发了针对任务分解，分配和调度问题的多代理系统的随机编程框架，同时优化。由于其固有的灵活性和鲁棒性，多代理系统应用于涉及异构任务和不确定信息的生长现实问题范围。最先前的作品假设一个独特的方法来将任务分解为可以稍后分配给代理的角色。此假设对于角色可以不同并且存在多个分解结构的复杂任务无效。同时，尚不清楚任务要求和代理能力的不确定性如何在多代理系统设置下系统地量化和优化。提出了复杂任务的表示以避免非凸任务分解枚举代理能力表示为随机分发的向量，并且通过概括的二进制函数验证任务要求。风险CVAR的条件值被选为目标函数中的度量标准，以产生强大的计划。描述了一种有效的算法来解决模型，并且整个框架在两个不同的实际测试用例中评估了在大流行期间捕获国旗和机器人服务协调。，Covid 19。结果表明，框架是可扩展，更广泛的，提供低成本计划，以确保成功的概率很高。

Active Exploitation of Redundancies in Reconfigurable Multi-Robot Systems
Authors Thomas M. Roehr
虽然传统的机器人系统具有单片系统设计，但可重新配置的多机器人系统可以按需时尚共享和移位物理资源。通过主动管理根据当前任务并具有更多选项来响应失败事件的选项，可以通过积极管理系统冗余，从这种灵活性受益。为了支持对机器人系统中冗余的这种积极开发，本文详细介绍了组织模型作为规划可重新配置的多机器人系统的基础。该模型允许在优化多机器人系统的生存概率相对于所需的任务时利用冗余。由此产生的规划方法对机器人操作的效率进行了安全性，从而提供了新的视角和工具来设计和改进多机器人任务。我们使用模拟的多机器人行星探索任务来评估这种方法并突出显示示例性能景观。

Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers
Authors Apratim Bhattacharyya, Daniel Olmeda Reino, Mario Fritz, Bernt Schiele
准确预测行人和自行车司机路径是对密集城市环境中可靠的自主车辆的发展的一体化。车辆和行人或骑自行车的互动对交通参与者的轨迹产生了重大影响。停止或转动以避免碰撞。尽管最近的数据集和轨迹预测方法培养了自主车辆的发展，但是模型的车辆行人自行车交互的数量是稀疏的。在这项工作中，我们提出了欧元PVI，一个行人和自行车轨迹的数据集。特别是，与现有数据集相比，我们的数据集与密集的城市情景中的更多样化和复杂的交互相同。为了解决预测具有密集相互作用的未来轨迹的挑战，我们开发了一个联合推理模型，这些模型在城市场景中的代理商学习了一个表现力的多模式共享潜在空间。这使我们的联合Beta CVAE方法能够更好地模范未来轨迹的分布。我们在NUSCENES和欧元PVI数据集上实现了最先进的结果，证明了捕获自助式车辆与行人骑自行车骑士之间的相互作用的重要性。

Bregman Gradient Policy Optimization
Authors Feihu Huang, Shangqian Gao, Heng Huang
在本文中，我们设计了一种基于Bregman分解和动量技术的强化学习的新型Bregman梯度政策优化框架。具体而言，我们提出了一种基于基本动量技术和镜面血液升降迭代的Bregman梯度策略优化BGPO算法。同时，我们提出了一种基于动量方差减少技术的加速BREGMAN梯度策略优化VR BGPO算法。此外，我们为我们的Bregman渐变策略优化引入了一个收敛分析框架，在非凸形设置下。具体而言，我们证明BGPO实现了TILDE O EPSILON 4的样本复杂性，用于查找仅在每次迭代时需要一个轨迹的ePSILON固定点，并且VR BGPO达到TILDE O EPSILON 3的最佳已知的样本复杂性，以寻找epsilon固定点在每次迭代中也只需要一个轨迹。特别是，通过使用不同的Bregman分歧，我们的方法统一许多现有的策略优化算法及其新的变体，例如现有的差异减少的政策梯度算法和方差减少了自然政策梯度算法。对多种加强学习任务的广泛实验结果展示了我们新算法的效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com