AI视野·今日CS.Robotics 机器人学论文速览
Fri, 24 Sep 2021
Totally 28 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Leveraging distributed contact force measurements for slip detection: a physics-based approach enabled by a data-driven tactile sensor
Authors Pietro Griffa, Carmelo Sferrazza, Raffaello D Andrea
抓取物理特性未知的物体仍然是机器人技术中的一大挑战。大多数解决方案完全依靠视觉数据来规划最佳抓取策略。然而,为了匹配人类的能力并能够可靠地拾取和握持未知物体,在机器人系统中集成人工触觉至关重要。本文描述了一种基于新模型的滑动检测管道,它可以实时预测可能的抓握失败并发出抓握力的必要增加信号。因此,滑动检测器不依赖于手动收集的数据,而是利用物理学来概括不同的任务。为了评估该方法,将准确估计分布力的最先进的基于视觉的触觉传感器集成到由六自由度协作机器人和两指抓手组成的抓取装置中。结果表明,该系统可以在操纵不同形状、材料和重量的物体时可靠地预测滑移。

Characterization of Real-time Haptic Feedback from Multimodal Neural Network-based Force Estimates during Teleoperation
Authors Zonghe Chua, Allison M. Okamura
使用神经网络进行力估计是一种很有前途的方法,可以在没有末端执行器力传感器的微创手术机器人中实现触觉反馈。已经提出了各种网络架构,但都没有通过类似手术的操作进行实时测试。因此,关于来自基于神经网络的力估计的力反馈的实时透明度和稳定性的问题仍然存在。我们使用仅具有视觉、仅状态或状态和视觉输入的神经网络来表征在达芬奇研究套件遥控手术机器人上呈现的力反馈的实时阻抗透明度和稳定性。网络在没有力反馈的远程操作的现有数据集上进行了训练。我们通过命令患者侧机器人对人造硅胶组织进行垂直回缩和触诊,在没有呈现力反馈的情况下测量实时透明度。为了通过向操作员提供力反馈来测量远程操作过程中的稳定性和透明度,我们模拟了一个自由度的人类和外科医生侧操作器,该操作器移动患者侧机器人以执行操作。我们发现,在没有力反馈的情况下,多模态视觉和状态网络比单模态网络显示出更透明的阻抗。基于状态的网络在使用力反馈的操作过程中表现出不稳定性。

Acceleration based PSO for Multi-UAV Source-Seeking
Authors Adithya Shankar, Harikumar Kandath, J. Senthilnath
本文提出了一种新的算法,用于一群无人驾驶飞行器无人机搜索未知来源。所提出的方法受到众所周知的 PSO 算法的启发,称为基于加速的粒子群优化 APSO,以解决没有先验信息的源搜索问题。与传统 PSO 算法根据自我认知和社会认知信息更新粒子速度不同,这里更新是对粒子加速度进行的。提供了理论分析,显示了所提出的 APSO 算法的稳定性和收敛性。所得三阶更新方程的参数条件是使用 Jurys 稳定性测试获得的。在 CoppeliaSim 中执行的高保真模拟表明,与基于粒子群的最先进的源搜索算法相比,所提出的 APSO 算法在搜索未知源方面的性能有所提高。从获得的结果可以看出,在不同的无人机间通信网络拓扑、不同的无人机群数量、不同大小的搜索区域、受限制的源移动和存在

Computing Funnels Using Numerical Optimization Based Falsifiers
Authors Ji Fejlek, Stefan Ratschan
在本文中,我们提出了一种计算沿常微分方程组轨迹的漏斗的算法。漏斗是包含给定轨迹的随时间变化的状态集,对于这些状态,在任何给定时间从集合内的演化都停留在漏斗中。

A Robust Adaptive Approach to Dynamic Control of Soft Continuum Manipulators
Authors Amirhossein Kazemipour, Oliver Fischer, Yasunori Toshimitsu, Ki Wan Wong, Robert K. Katzschmann
软机器人由柔顺且可变形的材料制成,可以执行传统刚性机器人具有挑战性的任务。软机器人固有的顺从性使它们更适合和适应与人类和环境的交互。然而,这种卓越是有代价的,它们的连续性使得开发基于模型的鲁棒控制策略具有挑战性。具体来说,解决这一挑战的自适应控制方法尚未应用于物理软机械臂。这项工作提出了使用欧拉拉格朗日方法对软连续体机械手的动力学进行重新表述。所提出的模型消除了先前工作中所做的简化假设,并提供了对机器人惯性的更准确描述。基于我们的模型,我们引入了任务空间自适应控制方案。该控制器对模型参数的不确定性和未知的输入干扰具有鲁棒性。控制器在物理软连续臂上实现。进行了一系列实验以验证控制器在不同有效载荷下任务空间轨迹跟踪的有效性。该控制器在准确性和鲁棒性方面均优于最先进的方法。

Low-Latency Immersive 6D Televisualization with Spherical Rendering
Authors Max Schwarz, Sven Behnke
我们提出了一种实时立体场景捕捉和远程 VR 可视化的方法,允许人类操作员自由移动他们的头部,从而在远程操作过程中直观地控制他们的视角。立体相机安装在 6D 机械臂上,该机械臂跟随操作员的头部姿势。现有的 VR 遥操作系统要么会导致头部运动的高延迟导致晕车,要么使用场景重建方法允许从不同角度重新渲染场景,无法有效处理动态场景。相反,我们提出了一种解耦方法,假设距离恒定,将捕获的相机图像呈现为球体。这允许非常快速地重新渲染头部姿势变化,同时保持头部平移期间产生的临时失真很小。

Optimal Control via Combined Inference and Numerical Optimization
Authors Daniel Layeghi, Steve Tonneau, Michael Mistry
基于导数的优化方法在解决接近局部最优的最优控制问题方面是有效的。然而,当衍生信息消失时,它们的收敛能力就会停止。最优控制的推理方法对客观景观没有严格的要求。然而,作为解决此类问题的主要工具,采样在计算时间上往往要慢得多。我们提出了一种将二阶方法与推理相结合的新方法。我们利用 Kullback Leibler KL 控制框架来制定推理问题,该问题根据近似二阶方法解的自适应分布计算最优控制。我们的方法允许组合简单的凸成本函数和非凸成本函数。这简化了成本函数设计的过程,并利用了推理和二阶优化的优势。

The Hilti SLAM Challenge Dataset
Authors Michael Helmberger, Kristian Morin, Nitish Kumar, Danwei Wang, Yufeng Yue, Giovanni Cioffi, Davide Scaramuzza
准确和稳健的姿态估计是自主系统导航、映射和执行任务的基本能力。特别是,由于稀疏性、光照条件变化和动态对象,施工环境对同时定位和映射 SLAM 算法提出了具有挑战性的问题。当前 SLAM 的学术研究侧重于开发更准确和稳健的算法,例如通过融合不同的传感器模式。为了帮助这项研究,我们提出了一个新的数据集,即喜利得 SLAM 挑战数据集。用于收集此数据集的传感器平台包含许多经过严格校准的视觉、激光雷达和惯性传感器。所有数据都在时间上对齐,以支持精确的多传感器融合。每个数据集都包含准确的地面实况,以允许直接测试 SLAM 结果。提供了来自各种环境中十二个数据集的原始数据以及内在和外在传感器校准数据。

Enhancing Navigational Safety in Crowded Environments using Semantic-Deep-Reinforcement-Learning-based Navigation
Authors Linh K stner, Junhui Li, Zhengcheng Shen, Jens Lambrecht
社交人群之间的智能导航是移动机器人技术的一个重要方面,用于交付、医疗保健或援助等应用。深度强化学习作为保守方法的替代规划方法出现,并有望提供更有效和灵活的导航。然而,在使用不同类型障碍物的高度动态环境中,安全导航仍然是一个巨大的挑战。在本文中,我们提出了一种基于语义深度强化学习的导航方法,该方法通过考虑高级障碍信息来教授对象特定的安全规则。特别是,代理通过考虑特定危险区域来学习对象特定行为,以增强易受攻击对象类的安全性。我们针对基准避障方法测试了该方法,发现安全性有所提高。

Risk-Aware Motion Planning in Partially Known Environments
Authors Fernando S. Barbosa, Bruno Lacerda, Paul Duckworth, Jana Tumova, Nick Hawes
最近的趋势是将机器人部署在被认为对人类有危险的区域,例如存在气体和辐射泄漏的建筑物。在这种情况下,潜在危险过程的模型可能事先不为代理所知,从而导致在部分已知的环境中规划安全行为的问题。我们采用高斯过程回归从局部噪声样本中创建危险过程的概率模型。然后,此回归的结果由风险度量标准(例如风险条件值)用于推断特定状态下的安全性。结果是可用于优化运动规划问题的风险函数。我们以两种方法演示了所提出函数的使用。第一种是基于采样的运动规划算法,具有用于在线重新规划的基于事件的触发器。其次是对增量高斯过程运动规划器 iGPMP2 的适配,使其能够快速反应并适应环境。

Semi-Supervised Imitation Learning with Mixed Qualities of Demonstrations for Autonomous Driving
Authors Gunmin Lee, Wooseok Oh, Seungyoun Shin, Dohyeong Kim, Jeongwoo Oh, Jaeyeon Jeong, Sungjoon Choi, Songhwai Oh
在本文中,我们以半监督的方式考虑使用模仿学习的自动驾驶问题。特别是,通过估计每个未标记演示的质量,在训练期间利用标记和未标记演示。如果提供的演示被破坏并且信噪比低,则模仿学习代理的性能可能会显着下降。为了缓解这个问题,我们提出了一种称为半监督模仿学习 SSIL 的方法。 SSIL 首先通过为类似于标记专家演示的演示分配更高的可靠性值来学习如何区分和评估每个状态动作对在未标记演示中的可靠性。这个可靠性值称为杠杆。在此区分过程之后,在以半监督方式训练策略时,使用具有估计杠杆值的标记和未标记演示。实验结果证明了所提出算法使用具有混合质量的未标记轨迹的有效性。

Open Source Software for Teleoperated Driving
Authors Andreas Schimpe, Johannes Feiler, Simon Hoffmann, Domagoj Majstorovic, Frank Diermeyer
远程操作允许操作员在危险或无法进入的区域与移动机器人进行远程交互并对其进行控制。除了太空探索或搜救行动等众所周知的应用外,遥操作在自动驾驶领域的应用,即遥控驾驶 ToD 也越来越受欢迎。远程操作员可以使用蜂窝网络连接到车辆并解决超出自动驾驶汽车 AV 操作设计领域的情况,而不是车载人工后备驾驶员。自动驾驶汽车和无人驾驶地面车辆的远程操作会引入不同的问题,这是正在进行的研究的重点。本文介绍了一个开源的 ToD 软件堆栈,它是为开展这项研究而开发的。

Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic Grasp Stability Metrics
Authors Alexander Koenig, Zixi Liu, Lucas Janson, Robert Howe
奖励函数是每个强化学习 RL 算法的核心。在机器人抓取中,奖励通常是复杂且手动设计的功能,不依赖于抓取分析的合理物理模型。这项工作表明,分析抓取稳定性指标构成了 RL 算法的强大优化目标,该算法仅使用触觉和关节位置信息来优化三指手的抓取。我们的性能优于二元奖励基线 42.9,并发现几何和力不可知的抓握稳定性指标的组合产生最高的平均成功率,长方体为 95.4,圆柱体为 93.1,球体为 62.3,手腕位置误差在 0 到 7 厘米之间,并且0 到 14 度之间的旋转误差。

Accessibility-Based Clustering for Efficient Learning of Robot Fall Recovery
Authors Chong Zhang, Wanming Yu, Zhibin Li
对于四足跌倒恢复的无模型深度强化学习,机器人配置的初始化对数据效率和鲁棒性至关重要。这项工作侧重于通过自动发现初始状态同时提高数据效率和鲁棒性的算法改进,这是通过我们提出的基于可访问性指标的 K Access 算法实现的。具体来说,我们制定了可访问性指标来衡量两个任意状态之间转换的难度,并提出了一种新的 K Access 算法用于状态空间聚类,该算法基于可访问性指标自动发现静态姿势簇的质心。通过使用发现的质心静态姿势作为初始状态,我们通过减少冗余探索来提高数据效率,并通过从质心到采样静态姿势的轻松探索来增强鲁棒性。我们使用 8 DOF 四足机器人 Bittle 研究了广泛的验证。与随机初始化相比,我们提出的方法的学习曲线收敛得更快,只需要大约 60 个训练集。

Hierarchies of Planning and Reinforcement Learning for Robot Navigation
Authors Jan W hlke, Felix Schmitt, Herke van Hoof
由于其稀疏奖励和长决策范围性质,通过强化学习 RL 解决机器人导航任务具有挑战性。但是,在许多导航任务中,可以使用高级 HL 任务表示,例如粗略的平面图。以前的工作已经证明了通过分层方法进行的有效学习,包括 HL 表示中的路径规划和使用从计划派生的子目标来指导源任务中的 RL 策略。然而,这些方法在规划过程中通常忽略了机器人的复杂动力学和次优子目标达到能力。这项工作通过提出一种新颖的分层框架来克服这些限制,该框架利用可训练的规划策略进行 HL 表示。因此,可以利用收集的部署数据来学习机器人的能力和环境条件。我们特别介绍了一种基于价值迭代的规划策略和学习的转换模型 VI RL 。在模拟机器人导航任务中,VI RL 导致对普通 RL 的持续强劲改进,在单一布局上与普通分层 RL 相当,但更广泛地适用于多个布局,并且与可训练的 HL 路径规划基线相当(停车任务除外)

Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling
Authors Seunghyeok Back, Joosoon Lee, Taewon Kim, Sangjun Noh, Raeyoung Kang, Seongho Bak, Kyoobin Lee
对于非结构化环境中的机器人系统,对看不见的对象进行实例感知分割是必不可少的。尽管以前的工作取得了令人鼓舞的结果,但它们仅限于分割看不见的物体的唯一可见区域。对于杂乱场景中的机器人操作,需要非模态感知来处理其他物体后面的遮挡物体。本文解决了 Unseen Object Amodal Instance Segmentation UOAIS,以检测 1 个可见掩码、2 个 amodal 掩码和 3 个看不见的对象实例上的遮挡。为此,我们提出了一种分层遮挡建模 HOM 方案,旨在通过将层次分配给特征融合和预测顺序来推理遮挡。我们在三个基准桌面、室内和垃圾箱环境中评估了我们的方法,并实现了最先进的 SOTA 性能。

PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation
Authors Alexey Kamenev, Lirui Wang, Ollin Boer Bohan, Ishwar Kulkarni, Bilal Kartal, Artem Molchanov, Stan Birchfield, David Nist r, Nikolai Smolyanskiy
预测交通代理的未来运动对于安全高效的自动驾驶至关重要。为此,我们提出了 PredictionNet,这是一种深度神经网络 DNN,可预测所有周围交通代理的运动以及自我车辆的运动。所有预测都是概率性的,并以允许任意数量的代理的简单自上而下的光栅化方式表示。以具有车道信息的多层地图为条件,网络在一次通过中为包括自我车辆在内的所有代理共同输出未来位置、速度和回溯向量。然后从输出中提取轨迹。该网络可用于模拟真实的流量,并在流行的基准测试中产生具有竞争力的结果。更重要的是,通过将其与运动规划控制子系统相结合,它已被用于成功控制现实世界的车辆数百公里。网络在嵌入式 GPU 上的运行速度比实时快,并且由于选择了输入表示,系统在感官模式和位置​​上表现出良好的泛化能力。

Prediction of Metacarpophalangeal joint angles and Classification of Hand configurations based on Ultrasound Imaging of the Forearm
Authors Keshav Bimbraw, Christopher Julius Nycz, Matt Schueler, Ziming Zhang, Haichong K. Zhang
随着计算和机器人技术的进步,有必要开发流畅直观的方法来与数字系统、AR VR 界面和物理机器人系统进行交互。手部运动识别被广泛用于实现这种交互。手部配置分类和掌指 MCP 关节角度检测对于手部运动的全面重建很重要。表面肌电图和其他技术已被用于检测手部运动。前臂的超声图像提供了一种从肌肉骨骼角度可视化手的内部生理的方法。最近的工作表明,可以使用机器学习对这些图像进行分类,以预测各种手部配置。在本文中,我们提出了一种基于卷积神经网络 CNN 的深度学习管道,用于预测 MCP 关节角度。我们通过使用支持向量分类器 SVC 将超声信息分类为基于日常生活 ADL 活动的几种预定义手部配置来补充我们的结果。来自前臂的超声数据来自 6 名受试者,他们被指示根据与 ADL 相关的预定义手部配置移动他们的手。获取动作捕捉数据作为食指、中指、无名指和小指以不同速度 0.5 Hz、1 Hz、2 Hz 的手部运动的基本事实。我们能够在我们收集的数据集的一个子集上获得有希望的 SVC 分类结果。我们展示了预测的 MCP 关节角度与手指的实际 MCP 关节角度之间的对应关系,平均均方根误差为 7.35 度。

Shape Control of Deformable Linear Objects with Offline and Online Learning of Local Linear Deformation Models
Authors Mingrui Yu, Hanzhong Zhong, Xiang Li
可变形线性对象 DLO 的形状控制具有挑战性,因为很难获得变形模型。以前的研究通常以纯离线或在线方式近似模型。在本文中,我们提出了一种用于 DLO 形状控制的方案,其中通过离线和在线学习来估计未知模型。该模型以局部线性格式制定,并由神经网络 NN 近似。首先,神经网络经过离线训练,为模型提供了良好的初始估计,可以直接迁移到在线阶段。然后,提出了一种自适应控制器来实现形状控制任务,其中 NN 进一步在线更新,以补偿由于训练不足或 DLO 属性变化而导致的离线模型中的任何错误。

Discovering State and Action Abstractions for Generalized Task and Motion Planning
Authors Aidan Curtis, Tom Silver, Joshua B. Tenenbaum, Tomas Lozano Perez, Leslie Pack Kaelbling
广义规划通过找到解决任务的多个实例的策略之类的算法来加速经典规划。可以从几个训练示例中学习一个通用计划,并将其应用于整个问题领域。广义规划方法在涉及大量对象和扩展动作序列以实现目标的离散 AI 规划问题中表现良好。在本文中,我们提出了一种用于学习特征、抽象和通用计划的算法,用于连续机器人任务和运动规划 TAMP,并检查在被迫将几何和物理约束作为通用计划的一部分考虑时出现的独特困难。

PCVPC: Perception Constrained Visual Predictive Control For Agile Quadrotors
Authors Chao Qin, Hugh H.T. Liu
我们提出了一种用于四旋翼飞行器的感知约束视觉预测控制 PCVPC 算法,以在不使用任何位置信息的情况下实现激进的飞行。我们的框架利用非线性模型预测控制 NMPC 来制定基于约束图像的视觉伺服 IBVS 问题。考虑到四旋翼飞行器动力学、图像动力学、驱动约束和可见性约束,以高敏捷性处理四旋翼飞行器机动。将 IBVS 应用于敏捷无人机的两个主要挑战被认为是深度对强烈方向变化的高度敏感性,以及由于欠驱动性质导致的视觉伺服目标和动作目标之间的冲突。为了应对第一个挑战,我们通过方位向量和距离参数化视觉特征,深度将不再涉及图像动态。同时,我们通过使用四旋翼飞行器的预测方向补偿未来视觉伺服成本中的旋转来解决冲突问题。我们在模拟中的方法表明,i 它可以在没有任何位置信息的情况下工作,ii 它可以在不丢失目标的情况下实现 9 ms 的轨迹跟踪的最大参考速度,iii 它可以到达地标,例如无人机比赛中的门,

SOCIALGYM: A Framework for Benchmarking Social Robot Navigation
Authors Jarrett Holtz, Joydeep Biswas
机器人在动态的人类环境中以符合社会标准的方式安全移动是机器人长期自主的重要基准。然而,完全在现实世界中学习和基准社交导航行为是不可行的,因为学习是数据密集型的,并且在训练期间做出安全保证具有挑战性。因此,需要为社交导航提供抽象的基于模拟的基准测试。这些基准的框架需要支持多种学习方法,可扩展到广泛的社交导航场景,并抽象出感知问题以明确关注社交导航。虽然已经提出了许多解决方案,包括高保真 3D 模拟器和网格世界近似,但没有现有的解决方案满足所有上述用于学习和评估社交导航行为的特性。在这项工作中,我们提出了 SOCIALGYM,一个轻量级的机器人社交导航 2D 模拟环境,设计时考虑了可扩展性,以及一个基于 SOCIALGYM 的基准场景。此外,我们提供了基准结果,将人工工程和基于模型的学习方法与一套现成的从演示 LfD 中学习和强化学习 RL 方法应用于社交机器人导航的方法进行比较和对比。

A Robot Cluster for Reproducible Research in Dexterous Manipulation
Authors Stefan Bauer, Felix Widmaier, Manuel W thrich, Niklas Funk, Julen Urain De Jesus, Jan Peters, Joe Watson, Claire Chen, Krishnan Srinivasan, Junwu Zhang, Jeffrey Zhang, Matthew R. Walter, Rishabh Madan, Charles Schaff, Takahiro Maeda, Takuma Yoneda, Denis Yarats, Arthur Allshire, Ethan K. Gordon, Tapomayukh Bhattacharjee, Siddhartha S. Srinivasa, Animesh Garg, Annika Buchholz, Sebastian Stark, Thomas Steinbrenner, Joel Akpo, Shruti Joshi, Vaibhav Agrawal, Bernhard Sch lkopf
灵巧的操作仍然是机器人技术中的一个悬而未决的问题。为了协调研究界解决这个问题的努力,我们提出了一个共享的基准。我们设计并构建了托管在 MPI IS 上并可远程访问的机器人平台。每个平台由三个机械手指组成,能够灵巧地操纵物体。用户可以通过提交自动执行的代码来远程控制平台,类似于计算集群。使用这种设置,我们举办机器人竞赛,来自世界各地的团队访问我们的平台来处理具有挑战性的任务,ii我们发布这些比赛期间收集的数据集,包括数百个机器人小时,iii我们让研究人员访问这些平台

Safe-Planner: A Single-Outcome Replanner for Computing Strong Cyclic Policies in Fully Observable Non-Deterministic Domains
Authors Vahid Mokhtari, Ajay Suresha Sathya, Nikolaos Tsiogkas, Wilm Decre
重新规划器是解决非确定性规划问题的有效方法。尽管显示出良好的可扩展性,现有的重新规划器通常无法解决涉及大量误导性计划的问题,即不会导致强解决方案的弱计划,然而,由于它们的长度最小,很可能在每次重新规划迭代中发现。重新规划者在此类问题中的糟糕表现是由于他们所有的结果都被确定了。也就是说,当从非确定性编译为经典时,它们将所有已编译的经典运算符包含在单个确定性域中,这导致重新规划者不断生成误导性的计划。我们引入了一个名为 Safe Planner SP 的离线重新规划器,它依赖于单个结果确定将非确定性域编译为一组经典域,并排序启发式以对获得的经典域进行排序。提议的单一结果确定和启发式方法允许在不同的经典域之间交替。我们通过实验表明,这种方法可以让 SP 避免生成误导性计划,但生成直接导致强解决方案的弱计划。实验表明,通过解决更广泛的问题,SP 优于最先进的非确定性求解器。

Predicting the Timing of Camera Movements From the Kinematics of Instruments in Robotic-Assisted Surgery Using Artificial Neural Networks
Authors Hanna Kossowsky, Ilana Nisky
机器人辅助手术对外科医生和患者都有好处,但是,外科医生经常需要调整内窥镜摄像头以获得良好的视角。同时控制相机和手术器械是不可能的,因此,这些相机调整反复中断手术。自主摄像头控制可以帮助克服这一挑战,但大多数现有系统都是被动的,例如,让摄像头跟随手术器械。我们提出了一种预测方法,用于使用人工神经网络预测何时会发生相机移动。我们使用了手术器械的运动学数据,这些数据是在猪模型的机器人辅助手术训练期间记录的。我们将数据分成多个段,并将每个段标记为紧接在相机移动之前的段,或不紧跟的段。由于大的类不平衡,我们训练了一组网络,每个网络都在训练数据的平衡子集上。我们发现仪器的运动学数据可用于预测摄像机何时会发生移动,并评估不同片段持续时间和集合大小的性能。我们还研究了可以提前多少时间预测即将发生的相机运动,并发现在它们发生之前 0.25、0.5 和 1 秒预测相机运动相对于即将发生的相机运动的预测实现了 98、94 和 84 的准确度。

Towards practical object detection for weed spraying in precision agriculture
Authors Adrian Salazar Gomez, Madeleine Darbyshire, Junfeng Gao, Elizabeth I Sklar, Simon Parsons
在过去的 4 到 5 年间,更小、更快的处理器和更便宜的数字存储机制的发展极大地增加了在广泛的实际环境中集成智能技术以解决广泛任务的机会。此类技术的一个令人兴奋的应用领域是精准农业,其中将机载机器视觉与数据驱动的驱动相集成的能力意味着农民可以在单个植物而非整个田地层面做出作物护理和收获的决策。这在经济和环境上都是有意义的。但是,此功能的关键驱动因素是快速且强大的机器视觉,通常由机器学习 ML 解决方案驱动并依赖于准确的建模。一个关键的挑战是,大部分基于机器学习的视觉研究只考虑评估对象检测准确性的指标,而没有评估实际因素。

Making Human-Like Trade-offs in Constrained Environments by Learning from Demonstrations
Authors Arie Glazier, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy, Francesca Rossi, K. Brent Venable
许多现实生活场景需要人类做出艰难的权衡,我们是否总是遵守所有交通规则,或者我们是否在紧急情况下违反了速度限制这些场景迫使我们评估集体规范和我们自己的个人目标之间的权衡。为了创建有效的 AI 人类团队,我们必须为 AI 代理配备人类如何在复杂、受限的环境中进行权衡的模型。这些代理将能够反映人类行为或将人们的注意力吸引到可以改进决策制定的情况上。为此,我们提出了一种新颖的逆强化学习 IRL 方法,用于从演示中学习隐式硬约束和软约束,使代理能够快速适应新的设置。此外,学习状态、动作和状态特征的软约束允许代理将这些知识转移到共享相似方面的新领域。然后,我们使用约束学习方法来实现一种新颖的系统架构,该架构利用人类决策的认知模型、多替代决策场理论 MDFT 来协调竞争目标。我们根据轨迹长度、违反约束的数量和总回报评估生成的代理,证明我们的代理架构既通用又实现了强大的性能。

Recursive Feasibility Guided Optimal Parameter Adaptation of Differential Convex Optimization Policies for Safety-Critical Systems
Authors Hardik Parwana, Dimitra Panagou
执行控制屏障功能 CBF 的二次程序 QP 已成为安全关键控制综合的流行,部分原因是它们易于实现和约束规范。然而,有效 CBF 的构建并不简单,对于任意选择的 QP 参数,系统轨迹可能会进入 QP 最终变得不可行或可能无法实现所需性能的状态。在这项工作中,我们将控制综合问题作为一种差分策略,其参数在高水平的时间范围内针对性能进行了优化,从而产生了双层优化例程。在不知道可行参数集的情况下,我们开发了一种递归可行性引导梯度下降方法来更新 QP 的参数,以便新解决方案的性能至少与以前的解决方案一样好。通过将动态系统视为随时间的有向图,这项工作提出了一种通过灵敏度分析使用其解相对于其参数的梯度在多个 CBF 的时间范围内将 QP 控制器的性能优化 1 的新方法,

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐