【AI视野·今日Robot 机器人论文速览第十期】Fri, 18 Jun 2021

AI视野·今日CS.Robotics 机器人学论文速览Fri, 18 Jun 2021Totally 20 papers????上期速览✈更多精彩请移步主页Daily Robotics PapersNo-frills Dynamic Planning using Static PlannersAuthors Mara Levy, Vasista Ayyagari, Abhinav Shrivast

hitrjj

462人浏览 · 2021-06-18 20:13:56

hitrjj · 2021-06-18 20:13:56 发布

AI视野·今日CS.Robotics 机器人学论文速览
Fri, 18 Jun 2021
Totally 20 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

No-frills Dynamic Planning using Static Planners
Authors Mara Levy, Vasista Ayyagari, Abhinav Shrivastava
在本文中，我们解决了与动态环境交互的任务，其中环境变化独立于代理。我们通过用UR5机器人臂捕获移动球的背景来研究这一点。我们的主要贡献是使用动态规划添加的动态任务的静态规划器的方法是，如果我们可以成功解决具有静态目标的任务，那么我们的方法可以在目标移动时解决相同的任务。我们的方法有三个关键组件离开货架静态策划器，轨迹预测网络和网络，以预测在任何位置的机器人的估计时间。我们展示了我们跨环境的方法的概括。更多信息和视频

KIT Bus: A Shuttle Model for CARLA Simulator
Authors Yusheng Xiang, Shuo Wang, Tianqing Su, Jun Li, Samuel S. Mao, Marcus Geimer
随着科学技术的不断发展，自动驾驶车辆肯定会改变运输的性质，实现未来的汽车行业转型。与自动驾驶汽车相比，自动驾驶公共汽车在携带乘客和能源消耗方面更加环保。因此，推测，在未来，自驾驾驶公共汽车将变得越来越重要。作为自主驾驶研究的模拟器，Carla模拟器可以帮助人们积累自动驾驶技术的经验更快，更安全。然而，缺点是Carla模拟器中没有现代总线模型。因此，人们无法在公共汽车上模拟自动驾驶或与公共汽车交互的场景。因此，我们在3ds Max软件中建立了一个总线模型，并将其导入Carla以填补这种差距。我们的型号即Kit总线，通过使用自动驾驶仪模拟来证明在Carla中工作。视频演示显示在我们的YouTube上。

Making Sense of Complex Sensor Data Streams
Authors Rongrong Liu, Birgitta Dresp Langley
这篇概念论文从我们以前的关于从生物传感器收集的个体抓地力数据的研究中的研究，该夹持器中的个体抓地力数据放在特定的解剖学位置，该位置在操作者的主导和非主导手中进行了用于微创内窥镜手术的机器人辅助精密抓取任务。一方面，机器人系统的特异性以及另一方面在另一个世界3D空间中执行的2D图像引导任务的特异性，以独特的方式在任务性能期间约束各个手和手指运动。我们以前的工作表明，在特定的抓握力配置文件方面，我们能够检测到数千个高度可变的单个数据的特定工作特定特征。这篇概念文件专注于两个互补数据分析策略，以实现这样的目标。与其他传感器数据分析策略相比，旨在最大限度地减少数据方差，因此在此方面需要通过使用适当的统计分析来破译传感器数据中的全部内部和各个方差的含义，如图所示在本文的第一部分。然后，解释了如何计算单个时空时间抓握力分布的计算允许检测各个用户之间的专业知识的特定差异。得出结论，这两个分析策略是互补的。它们可以从反映人类握持性能的数千个生物传感器数据和其与培训的演变中的绘制意义，同时充分考虑到他们相当大的间单个变异性。

Synthesizing Modular Manipulators For Tasks With Time, Obstacle, And Torque Constraints
Authors Thais Campos, Hadas Kress Gazit
模块化机器人可以量身定制以实现特定的任务，并重新排列以实现以前不可行的任务。挑战是从大型搜索空间选择合适的设计。在这项工作中，我们描述了一个框架，它给出了一个任务描述给定串行链条模块化机械手的设计和控制。该任务包括在3D空间中达到的点，时间约束，在末端执行器处维持的负载，以及在环境中避免的障碍物。这些规范在机器人的运动学和动态中被编码为约束优化，并且如果找到解决方案，则该配方返回特定的设计和控件以执行任务。最后，我们在复杂的规范上展示了我们的方法，其中机器人在保持对象时导航受约束的环境。

CRIL: Continual Robot Imitation Learning via Generative and Prediction Model
Authors Chongkai Gao, Haichuan Gao, Shangqi Guo, Tianren Zhang, Feng Chen
IMITITE学习IL算法已经显示了机器人的有希望的结果，从专家演示中学习技能。然而，对于现在需要了解各种任务的多样性机器人，提供和学习多项任务示范一旦困难。为了解决这个问题，在这项工作中，我们研究了如何实现持续的仿制学习能力，使机器人逐一地持续学习新任务，从而减少多项任务IL的负担并同时加速新任务学习的过程。我们提出了一种新颖的轨迹生成模型，该模型采用生成的对抗网络和动态预测模型，以产生来自新任务学习过程中所有学习任务的伪轨迹，以实现持续的仿制学习能力。我们对模拟和现实世界操纵任务的实验表明了我们方法的有效性。

Cat-like Jumping and Landing of Legged Robots in Low-gravity Using Deep Reinforcement Learning
Authors Nikita Rudin, Hendrik Kolvenbach, Vassilios Tsounis, Marco Hutter
在本文中，我们显示学习的政策可以应用于使用广泛的飞行阶段解决有腿的运动控制任务，例如在太空探索中遇到的阶段。使用脱架深度加强学习算法，我们培训了一个神经网络，以控制跳跃的四曲机器人，同时仅使用其肢体进行姿态控制。我们提出了越来越复杂的任务，导致三维RE定位和横向的三维机器人的着陆机置行为的组合，穿越模拟低重力天体。我们展示我们的方法在这些任务中轻松推广，并成功地为每种情况进行策略。使用SIM将SIMAT转移，我们将培训的策略部署在SpaceBok Robot上的现实世界，该机器人放置在专为二维微重力实验的实验试验台上。实验结果表明，具有自然敏捷性的重复，控制的跳跃和降落。

A new robotic hand based on the design of fingers with spatial motions
Authors Pol Hamon LS2N, ReV , Damien Chablat ReV, LS2N , Franck Plestan LS2N, Commande
本文介绍了一种新的手工手指下的新手架构。每个手指执行空间运动以实现比现有的平面运动手指更复杂和变化变化。这只手的目的是掌握复杂的工件，因为它们离开加工中心。在夹具的分类中，圆柱形和球形夹具通常用于掌握重物。这两种模式的组合使得可以捕获用5轴机器加工加工的大部分工件。然而，抓握模式的变化需要手指重新配置以执行空间运动。该解决方案需要添加两个或三个致动器以改变指状物的位置，并且需要传感器以识别工件的形状并确定要使用的掌握类型。本文建议将涉嫌手指下的概念扩展到空间运动。在手指的运动学呈现之后，讨论了稳定性的问题以及这种机制中的力传递。从Jacobian力传输矩阵的研究中提出了计算稳定条件的完整方法。提出了手的CAD表示及其在球形和圆柱形夹具中的行为。

Towards bio-inspired unsupervised representation learning for indoor aerial navigation
Authors Ni Wang, Ozan Catal, Tim Verbelen, Matthias Hartmann, Bart Dhoedt
GPS中的空中导航否认，室内环境，仍然是一个开放的挑战。无人机可以从更丰富的观点集中感知环境，同时具有比其他自主平台更严格的计算和能量限制。为了解决这个问题，这项研究显示了一种用于同时定位和映射SLAM的生物启发性深度学习算法及其在无人机导航系统中的应用。我们提出了一种无监督的表示学习方法，其产生低维潜在的描述符，这会降低对感知混叠的敏感性，并对功率有效，嵌入式硬件工作。在室内仓库环境中收集的数据集中评估设计的算法，初始结果显示了强大的室内空中导航的可行性。

Design of a prototypical platform for autonomous and connected vehicles
Authors Stefano Arrigoni, Simone Mentasti, Federico Cheli, Matteo Matteucci, Francesco Braghin
预计自动驾驶技术将彻底改变不同的部门，被视为道路车辆的自然演变。在过去几年中，现实世界的设计和几乎测试的解决方案的验证在重要的是，因为模拟环境永远不会完全复制可能影响现实世界的结果的所有方面。为此，本文介绍了我们对连接和自主驾驶项目的实验研究的原型平台。详细地，本文介绍了在与自动驾驶所需的主算法中设置和软件方面相关的机械方面的车辆的整体架构，该车辆在与远程驱动所需的主要算法中设置和软件方面，作为自主驾驶所需的主要算法，环境感知，运动规划和致动。最后，据报道，在城市环境中进行的实验测试验证并评估整个系统的性能。

Field trial on Ocean Estimation for Multi-Vessel Multi-Float-based Active perception
Authors Giovanni D urso, James Ju Heon Lee, Ki Myung Brian Lee, Jackson Shields, Brenton Leighton, Oscar Pizarro, Chanyeol Yoo, Robert Fitch
海洋车辆已被用于各种科学任务，其中收集了兴趣特征的信息。为了最大限度地利用大量搜索空间收集信息，我们应该能够部署大量自治车辆，该车辆基于对环境中的目标特征的最新理解作出决定。在我们以前的工作中，我们为多船多浮法MVMF问题提出了一个分层框架，其中表面容器下降并以时间最小的方式拾取欠置浮动。在本文中，我们使用具有许多漂移和浮点的框架介绍了现场试验结果。我们发现了许多需要在拟议的框架中考虑的重要方面，并提出解决挑战的潜在方法。

Learning Robot Exploration Strategy with 4D Point-Clouds-like Information as Observations
Authors Zhaoting Li, Tingguang Li, Jiankun Wang, Max Q. H. Meng
能够探索未知的环境是完全自治机器人的要求。已经提出了许多基于学习的方法来学习探索策略。在基于前沿的探索中，学习算法倾向于学习最佳或附近的最佳边境来探索。这些方法中的大多数是将环境视为固定尺寸图像，并将其作为对神经网络的输入。但是，环境的大小通常是未知的，这使得这些方法无法概括到现实世界场景。为了解决这个问题，我们提出了一种基于4D点云的新型状态表示方法，如信息，包括位置，前沿和距离信息。我们还设计了一个神经网络，可以像信息一样处理这些4D云，并为每个边界生成估计值。然后，这种神经网络使用典型的加强学习框架训练。我们通过将其与其他五种方法进行比较来测试我们提出的方法的性能，并在训练集中的映射上测试其可扩展性。实验结果表明，我们所提出的方法需要较短的平均行驶距离来探索整个环境，并且可以在具有任意尺寸的地图中采用。

Decentralised Intelligence, Surveillance, and Reconnaissance in Unknown Environments with Heterogeneous Multi-Robot Systems
Authors Ki Myung Brian Lee, Felix H. Kong, Ricardo Cannizzaro, Jennifer L. Palmer, David Johnson, Chanyeol Yoo, Robert Fitch
我们介绍了分散，异构多机器人系统的设计和实施，用于在未知环境中执行智能，监控和侦察ISR。该团队由功能专门的机器人组成，可以收集信息和其他执行特派团特定任务的其他机器人，并协调，以实现未知环境中的同步探索和剥削。我们展示了这样一个系统的实际实施，包括分散的机器人定位，映射，数据融合和协调。系统在有效的分布式模拟中进行了说明。我们还描述了一个UAS平台，用于硬件实验以及正在进行的进展。

Planning on a (Risk) Budget: Safe Non-Conservative Planning in Probabilistic Dynamic Environments
Authors Hung Jui Huang, Kai Chi Huang, Michal p, Yibiao Zhao, Ying Nian Wu, Chris L. Baker
在与其他代理人的环境中规划，其未来行动不确定通常需要在安全性和性能之间妥协。在这里，我们的目标是设计高效的规划算法，保证安全违规概率，仍然实现了非保守性能。为了量化系统的风险，我们定义了一个名为间隔风险限制IRB的自然标准，它在给定时间间隔或任务上提供了安全违规概率的参数上限。我们提出了一种新的后退地平线算法，并证明它可以满足所需的IRB。我们的算法维持动态风险预算，限制每次迭代的允许风险，并通过要求在预算范围内的应急计划可访问安全设定来保证递归可行性。我们经验证明，我们的算法在涉及与其他车辆的碰撞避免的情况下的两个模拟自主驾驶实验中，我们的算法比强大的基线更安全，更保守保守，并且另外展示了我们在自动级别8卡车上运行的算法。

SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual Policies
Authors Linxi Fan, Guanzhi Wang, De An Huang, Zhiding Yu, Li Fei Fei, Yuke Zhu, Anima Anandkumar
泛化是加强学习RL的长期挑战。特别是视觉RL，可以很容易地分散高尺寸观察空间中的无关因子。在这项工作中，我们考虑强大的策略学习，该策略学习将零拍摄的概括为具有大分布换档的看视觉环境。我们提出了一个新颖的自我专家克隆技术，它在两个阶段利用图像增强，从政策优化中解耦了鲁棒的代表学习。具体来说，首先由RL从划痕训练的专家政策，弱增频。然后学生网络学习通过强大的增强监督学习来模仿专家政策，使其代表更加强大地与专家相比的视觉变化。广泛的实验表明，SECANT在4个具有挑战性域中的零拍摄概括地提高了最新技术。我们对现有SOTA的平均奖励改进是深度控制26.5，机器人操纵337.8，基于视觉的自动驾驶47.7，以及室内物体导航15.8。代码发布和视频可用

Future mobility as a bio-inspired collaborative system
Authors Naroa Coretti S nchez, Juan M gica Gonz lez, Luis Alonso Pastor, Kent Larson
预计朝向车辆共享，电气化和自主性的目前趋势将转换移动性。合并适当，它们有可能显着提高城市移动性。然而，在大多数车辆被共享，电动和自主仍然是一个开放的问题之后，特别是关于车辆之间的相互作用以及这些交互如何影响系统级别行为。本文提出了由大自然的自然和支持的机器人和车辆排放模式的支持，提出了未来的流动性，其中共享，电动和自主车辆作为生物启发协作系统。车辆之间的协作将导致系统级别行为类似于自然群。自然群可以划分任务，群集，建在一起或交通合作。在这一未来的移动性中，车辆将通过物理或几乎连接，这将使能源，数据或计算能力，提供服务或转移货物的可能性。车辆将通过寻找有利于双方的互动关系，与一部分是同一船队的车辆，或者与道路上的任何其他车辆合作。群体机器人的领域已经将自然群的一些行为转化为人工系统，如果我们进一步将这些概念转化为城市移动性，令人兴奋的想法出现。在移动性相关的研究中，车辆排列模型中提出的协调运动可以被视为朝着协作流动性的第一步。本文有助于将目前的研究和移动趋势以新颖而独特的方式集成了未来的流动框架的提议。

Modelling resource allocation in uncertain system environment through deep reinforcement learning
Authors Neel Gandhi, Shakti Mishra
强化学习在机电一体化，机器人和其他资源受限控制系统领域具有应用。资源分配问题主要采用传统的预定技术和现代深层学习方法解决。用于资源分配的预定义和最深入学习方法的缺点无法满足不确定系统环境的情况下的要求。我们可以在利用深度加强学习的某些标准下沿着某些标准对不确定系统环境进行资源分配问题。此外，强化学习具有适应新的不确定环境的能力，长时间。本文对各种深度加强学习方法进行了详细的比较分析，通过应用不同的组件来改变利用嘈杂的层，优先考虑重放，装配，决斗网络和其他相关组合来获得性能和减少的改进计算成本。本文通过嘈杂的袋装Dueld Double Q网络实现了97.7的效率，可以有效地解决了不确定环境中的资源分配问题。通过在给定的模拟环境中的资源分配中的显着探索，可以获得97.7的效率。

Learning from Demonstration without Demonstrations
Authors Tom Blau, Gilad Francis, Philippe Morere
最先进的强化学习RL算法患有高样本复杂性，特别是在稀疏奖励案例中。缓解此问题的流行策略是通过模仿一系列专家演示来学习控制策略。这些方法的缺点是专家需要生产示范，这可能在实践中昂贵。为了解决这种缺点，我们向示范发现P2D2提出了概率规划，这是一种在没有访问专家的情况下自动发现示范的技术。我们制定发现示范作为搜索问题，并利用广泛使用的规划算法，例如快速探索随机树以找到演示轨迹。这些演示用于初始化策略，然后通过通用RL算法改进。我们提供了P2D2找到成功轨迹的理论保证，以及其采样复杂性的界限。我们通过实验展示该方法优于经典和内在勘探RL技术，在一系列经典控制和机器人任务中，只需要一小部分勘探样本并实现更好的渐近性能。

Automatic Curricula via Expert Demonstrations
Authors Siyu Dai, Andreas Hofmann, Brian Williams
我们通过专家演示，通过AC专业的课程提出了自动课程，这是一种加强学习RL方法，它结合了模仿学习和课程学习的思想，以解决具有稀疏奖励功能的挑战机器人操纵任务。课程学习通过引入一系列辅助任务来解决复杂的RL任务，随着难度的增加，如何自动设计有效和更广泛的课程仍然是一个具有挑战性的研究问题。通过将示范分为部分和初始化培训集中，从少量专家演示轨迹中提取课程从少量专家演示轨迹。通过将重置状态从终点移动到演示开始时，随着学习代理提高其性能，不仅可以了解具有看不见的初始化和目标的具有挑战性的操纵任务，还发现了与示范不同的新型解决方案。此外，ACED可以自然地与其他仿制方法以更有效的方式使用专家演示，并且我们表明，随着行为克隆的acced的组合允许挑选和放置任务，只需1个示范和块用20个示范学习堆积任务。

Convex Optimization for Trajectory Generation
Authors Danylo Malyuta, Taylor P. Reynolds, Michael Szmuk, Thomas Lew, Riccardo Bonalli, Marco Pavone, Behcet Acikmese
可靠和高效的轨迹生成方法是明天自主动态系统的基本需求。本文的目标是提供基于三个主要凸优化的轨迹生成方法的全面教程无损凸化LCVX，以及称为SCVX和GUSTO的两个顺序凸编程算法。在本文中，轨迹生成是计算动态可行的状态和控制信号，其满足一组约束，同时优化关键任务目标。轨迹生成问题几乎总是非正常的，这通常意味着它不容易允许在自主车辆上的高效且可靠的解决方案。我们讨论使用问题重新介绍的三种算法和系统算法策略，通过使用凸优化器来解决非凸散轨迹生成任务。凸优化提供的理论保证和计算速度使得在研究和工业界中流行的算法。迄今为止，申请清单包括火箭着陆，航天器超音速再入，航天器对接和对接，固定翼和四轮车车辆，机器人运动规划等的空中运动规划等。这些应用程序是由NASA，Masten Space Systems，Spacex和Blue Origin等组织进行的高调火箭飞行。本文旨在为读者提供使用每种算法所需的工具和理解，并知道每个方法可以且不能做到。公开的源代码存储库支持提供的数字示例。在文章结束时，读者应该准备好使用这些方法，扩展它们，并为他们的许多令人兴奋的现代应用贡献。

Safe Reinforcement Learning Using Advantage-Based Intervention
Authors Nolan Wagener, Byron Boots, Ching An Cheng
许多连续决策问题涉及找到一个最大化总奖励的政策，同时服从安全限制。虽然最近的研究已经专注于开发安全强化，在训练后产生安全政策的RL算法，确保培训期间的安全性，仍然是一个公开的问题。基本挑战正在进行探索，同时仍然令人满意在未知的马尔可夫决策过程MDP中的限制。在这项工作中，我们解决了这个问题的这个问题，因为机会约束了。我们提出了一种新的算法，SAILR，它使用基于优势功能的干预机制，使代理安全在整个训练中保持安全，并使用专为无约束MDPS设计的货架RL算法优化代理策略。我们的方法在培训和部署期间，在培训和部署期间，在培训和未经干预机制和政策表现与最佳安全受限的政策相比，我们的方法具有很强的保证。在我们的实验中，我们展示了在训练期间违反了比标准安全RL和受约束的MDP方法和融合到可以安全部署的良好执行政策的限制。我们的代码可供选择

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com