原始研究的文章gydF4y2Ba

前面。机器人。人工智能,2023年1月12日gydF4y2Ba
秒。机器人控制系统gydF4y2Ba
卷9 - 2022 |gydF4y2Ba https://doi.org/10.3389/frobt.2022.1030668gydF4y2Ba

工业机器人运动规划的数据驱动的方法由高级运动控制命令gydF4y2Ba

Shuxiao侯gydF4y2Ba*,gydF4y2Ba

穆罕默德BdiwigydF4y2Ba,gydF4y2Ba www.雷竞技rebatfrontiersin.orggydF4y2Ba

Aquib拉希德,gydF4y2Ba

塞巴斯蒂安KruschegydF4y2Ba和gydF4y2Ba www.雷竞技rebatfrontiersin.orggydF4y2Ba

史蒂芬IhlenfeldtgydF4y2Ba

弗劳恩霍夫研究所的机床和成形工艺(弗劳恩霍夫IWU),德国开gydF4y2Ba

大多数运动规划生成轨迹低级控制输入,如关节转矩或关节角的插值,它并不能被直接部署在大多数工业机器人控制系统。一些工业机器人系统提供接口来执行计划轨迹与底层控制输入额外的控制回路。然而,有一个几何和时间偏差的执行和计划之间的运动由于无法准确估计的机器人动态行为和控制器参数在规划阶段。这种偏差会导致碰撞或危险的情况下,特别是在重型工业机器人应用高速和长途运动被广泛使用。部署计划中的机器人运动时,实际的机器人运动需要反复检查和调整,以避免碰撞之间的偏差造成的计划和执行的动作。这个过程需要大量的时间和工程工作。因此,先进的方法不再满足今天的需求敏捷制造的机器人系统,应该迅速计划和部署新机器人运动不同的任务。我们提出一个数据驱动的运动规划方法同时使用神经网络结构学习高级运动命令和机器人动力学从获得现实的无碰撞轨迹。经过训练的神经网络可以生成轨迹高层命令的形式,如点对点和线性运动命令,可以直接执行的机器人控制系统。结果进行各种实验场景表明,几何和时间偏差的执行和计划之间的运动建议的方法明显减少了,即使没有机器人的“黑盒”参数。 Furthermore, the proposed approach can generate new collision-free trajectories up to 10 times faster than benchmark motion planners.

1介绍gydF4y2Ba

运动规划是机器人领域的基本问题之一。几十年来众多方法已经提出了这个任务通过利用两种技术:文中针对和启发式搜索技术。两个生成的轨迹运动规划模式通常包括大量gydF4y2Ba通过gydF4y2Ba点(gydF4y2Ba图1一个gydF4y2Ba),需要后期处理部署到工业机器人。gydF4y2Ba

图1gydF4y2Ba

图1gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba生成大量的轨迹gydF4y2Ba通过gydF4y2Ba点(紫点)。gydF4y2Ba(B)gydF4y2Ba一个插值插值轨迹低级控制输入(蓝色圆点)。gydF4y2Ba(C)gydF4y2Ba使用快捷键进行后期处理轨迹(绿点gydF4y2Ba通过gydF4y2Ba快捷键后点)。gydF4y2Ba

工业机器人的轨迹通常是本地语言的编程机器人制造商。这些编程语言预定义的一组高级运动命令。通常高层运动命令是点对点,线性和周期运动。机器人控制系统提供的机器人制造商都有自己的插值算法和控制回路执行程序。这些控制参数是由机器人制造商根据每个机器人的动态行为,他们通常为用户无法访问。gydF4y2Ba

有两种方法可以计划和部署机器人运动在大多数工业机器人的控制系统。gydF4y2Ba

1.1规划和部署机器人运动与高级运动命令gydF4y2Ba

对于一些机器人系统,用户只能使用预定义的高级运动命令和适应他们的参数项目所需的机器人动作,如编程的开始和目标配置点对点运动。在这种情况下,大多数使用随机的快捷方式来减少大量的方法gydF4y2Ba通过gydF4y2Ba点。例如(gydF4y2Ba豪泽Ng-Thow-Hing, 2010gydF4y2Ba),使用各种插值算法,如抛物线和线性插值,直接连接两个gydF4y2Ba通过gydF4y2Ba点的轨迹。如果直接连接无碰撞,冗余gydF4y2Ba通过gydF4y2Ba点可以消除(gydF4y2Ba图1 cgydF4y2Ba)。因为机器人的一些参数,如动态行为和控制参数,这些插值算法通常使用估计的值插入机器人的运动。然后进行后期处理轨迹应该转化为预定义的高级运动命令和导入到机器人控制系统(gydF4y2Ba图2 bgydF4y2Ba在离线阶段)。在线阶段,机器人控制系统提供的机器人制造商执行运动命令。机器人控制系统使用插值算法和控制参数和调整实现机器人制造商,这不同于在离线阶段使用的估计价值。它可能导致一个几何和时间偏差的执行和计划之间的运动。几何偏差可能会导致机器人之间的碰撞和静态环境。例如,gydF4y2Ba图1gydF4y2Ba显示了计划的轨迹插补算法使用的快捷方法在离线后处理,和gydF4y2Ba图2gydF4y2Ba显示实际的机器人运动执行的一个真正的机器人控制系统的插补算法实现机器人制造商。gydF4y2Ba

图2gydF4y2Ba

图2gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba部署使用轨迹后处理和外部控制回路。gydF4y2Ba(B)gydF4y2Ba部署使用后处理和机器人的轨迹控制系统。gydF4y2Ba(C)gydF4y2Ba直接部署基于高级运动轨迹命令没有后处理和使用机器人的控制系统。gydF4y2Ba

1.2规划和部署机器人运动与低级运动命令gydF4y2Ba

一些机器人控制系统和一个额外的通信接口允许一个额外的控制回路与低级命令机器人实时控制输入,如位置,机器人关节(黄色箭头的速度gydF4y2Ba图2一个gydF4y2Ba)。最先进的规划者插入之间的运动gydF4y2Ba通过gydF4y2Ba点低级控制输入在离线阶段(gydF4y2Ba图1 bgydF4y2Ba),并使用一个额外的控制器来执行插值轨迹(gydF4y2Ba图2一个gydF4y2Ba)。(gydF4y2BaElhaki Shojaei, 2022gydF4y2Ba;gydF4y2BaRahali et al ., 2022gydF4y2Ba;gydF4y2Ba谭et al ., 2023gydF4y2Ba)使用各种控制算法的在线阶段执行之间的偏差最小化和运动计划。然而,在重型工业机器人应用程序广泛使用的高速和长途动作,偏差变得重要。例如,在运动规划框架MoveIt (gydF4y2Ba瑜伽士et al ., 2012gydF4y2Ba),用户应该定义插入关节的最大反射和加速度运动在离线阶段计划。在线阶段,额外的控制器实时跟踪计划的运动。如果联合执行期间的实际最大加速度不能达到用户定义的值,执行机器人运动比计划慢。这个时间偏差可能会导致机器人之间的碰撞和动态障碍如其他机器人。例如,在一些多机器人系统,计划安排多个机器人通过一个共享的区域在不同的步伐。机器人进入共享时,它可能与他人碰撞面积比原计划提前或推后。gydF4y2Ba

1.3的贡献gydF4y2Ba

机器人运动规划在上面的两种方法描述应该在部署阶段验证检查是否计划和执行之间的几何和时间偏差的机器人运动导致碰撞。偏差会导致碰撞时,实际的机器人运动必须调整和验证。这个过程通常手工迭代多次,从而增加部署的工作机器人运动。gydF4y2Ba

最先进的无碰撞运动规划方法专注于改善运动规划算法的性能在离线阶段,如计算时间和避碰的成功率。今天的敏捷制造系统不仅需要自动机器人运动规划也迅速部署机器人的运动。因此,仍需要更多的研究之间的桥梁离线规划和机器人运动的快速部署可靠的在线执行。因此,我们提出了一种数据驱动的运动规划方法,考虑部署和部署计划中的运动已经在离线规划阶段。该方法克服了上面提到的问题:gydF4y2Ba

(1)该方法同时使用神经网络结构学习高级命令和机器人动力学从获得现实的无碰撞轨迹。在离线规划阶段,经过训练的神经网络结构可以产生无碰撞轨迹作为高层次的运动命令,如长途、高速点对点和线性运动。这些运动命令可以转换为manufacture-specifical机器人语言和直接导入到任何机器人控制系统(gydF4y2Ba图2 cgydF4y2Ba)。因为机器人运动控制系统可以执行这些命令,该方法不需要额外的控制回路实时控制机器人运动,构造一个简单的控制体系结构。此外,机器人制造商调整他们的机器人控制系统的控制算法完全访问机器人参数。因此,建议的方法达到一个更稳定的控制结构中描述的方法gydF4y2Ba图2一个gydF4y2Ba。gydF4y2Ba

(2)神经网络学习现实的机器人动力学和运动插值从实际机器人运动执行和使用它们来准确地计算实际的机器人动作执行的机器人控制系统。例如,在每个搜索步骤在离线规划阶段,该方法使用了机器人动态行为来插入机器人运动和检查是否与其他障碍机器人碰撞。建议的方法,规划机器人的运动偏离现实的机器人运动。因此,它可以保证只要机器人无碰撞运动计划离线,机器人也不会撞上障碍物所执行的机器人控制系统。这个特性可以满足1.2节中描述的问题。机器人运动规划的建议的方法不需要迭代验证身体在部署阶段,从而减少人工努力和工程过程的耗时。gydF4y2Ba

该方法是评估两种不同的工业应用。结果表明,该方法可以生成高级运动命令直接部署到真实的机器人系统,减少时间和空间之间的偏差和计划执行动作。gydF4y2Ba

2相关的工作gydF4y2Ba

2.1运动规划方法gydF4y2Ba

2.1.1文中针对运动规划方法gydF4y2Ba

文中针对运动规划起源于领域的最优控制,机器人已经使用了几十年。轨迹通常是离散gydF4y2Ba通过gydF4y2Ba点,等距的。在每一个控制输入gydF4y2Ba通过gydF4y2Ba点被认为是作为优化变量,如角度、速度和加速度的机器人关节。碰撞和机器人关节的运动学限制建模为约束项。长度、平滑度和执行时间的轨迹应该被描述为成本函数最小化。gydF4y2Ba拉et al . (2009)gydF4y2Ba,gydF4y2Ba舒尔曼et al。(2013)gydF4y2Ba,gydF4y2BaZucker et al。(2013)gydF4y2Ba,gydF4y2Ba舒尔曼et al。(2014)gydF4y2Ba使用不同的方法来优化建模运动规划问题与各种约束和目标。轨迹通常精确离散成大量的gydF4y2Ba通过gydF4y2Ba指出在复杂和高维解空间找到有效的解决方案。gydF4y2Ba

2.1.2 Sampling-based启发式搜索方法gydF4y2Ba

在过去的几十年中,sampling-based启发式搜索方法已广泛采用高维运动规划领域的配置空间取得了巨大的成功。快速扩展随机树(RRT) (gydF4y2Ba1998年拉gydF4y2Ba),最优快速扩展随机树(RRT *) (gydF4y2BaKaraman Frazzoli, 2011gydF4y2Ba),快速行进树(FMT) (gydF4y2Ba詹森et al ., 2015gydF4y2Ba和他们的扩展gydF4y2BaKuffner拉,2000年gydF4y2Ba;gydF4y2BaKaraman Frazzoli, 2011gydF4y2Ba;gydF4y2BaBdiwi et al ., 2018gydF4y2Ba;gydF4y2Ba奥托et al ., 2021gydF4y2Ba)探索配置空间逐步通过连接可行的样本搜索树。环境的复杂性和自由度(自由度)的机器人增加,样品通常不可行。因此,样品需要的数量提高到实现概率的完整性。gydF4y2Ba

多个通知方法探索区域有更高的概率生成可行的路径来提高机器人的构型空间的搜索效率。数据驱动技术,如监督学习、模仿学习和深入强化学习技术迅速成为有用的工具,以改善在高维配置空间信息搜索的效率。gydF4y2Ba

2.1.2.1学习采样策略gydF4y2Ba

程et al。(2020)gydF4y2Ba学会预测最优抽样分布在低成本、有效样本。基于学习的最佳抽样分布,经典的搜索算法用于计划阶段指导搜索进展的地区更优的,可行的路径。类似的(gydF4y2BaGaebert和托马斯,2022年gydF4y2Ba),使用一个CVAE网络学习样本抽样策略,吸引了基于环境感知提高抽样效率。在计划阶段,学习自适应采样策略是使用一种自适应概率gydF4y2Ba $λgydF4y2Ba$ 和统一的采样gydF4y2Ba $1gydF4y2Ba -gydF4y2Ba λgydF4y2Ba$ 。这两种方法的结合保证渐近最优性。而内隐学习的抽样分布(gydF4y2Ba莫利纳et al ., 2020gydF4y2Ba;gydF4y2Ba沙斯利瓦斯塔瓦,2022年gydF4y2Ba),学会预测关键区域有一个高密度的可行运动计划在给定的环境中。gydF4y2Ba

2.2.2.2端到端学习底层控制策略gydF4y2Ba

除了采样策略的学习(gydF4y2BaBhardwaj et al ., 2017gydF4y2Ba;gydF4y2Ba嗯,李,2018年gydF4y2Ba;gydF4y2BaJurgenson和他玛,2019gydF4y2Ba;gydF4y2Ba库雷希et al ., 2019gydF4y2Ba;gydF4y2Ba库雷希et al ., 2020gydF4y2Ba;gydF4y2BaJinwook et al ., 2022gydF4y2Ba),学会直接生成端到端底层控制策略来指导搜索过程有效地向目标区域。这些方法学习搜索策略从先前的规划问题,并将它们应用到新的。gydF4y2Ba库雷希et al。(2019)gydF4y2Ba和gydF4y2Ba库雷希et al。(2020)gydF4y2Ba设计两个神经网络。第一个是将点云环境的嵌入到一个隐藏的向量。第二个网络环境中嵌入,当前状态,启动和目标状态作为输入来生成一个样本在接下来的搜索步骤。在(gydF4y2Ba嗯,李,2018年gydF4y2Ba),提出了强化学习的方法。相对应的控制行为和政府行动值在给定状态可以学会在学习阶段。轨迹展开对基于政府行动计划阶段的目标价值可能的控制作用在每一个搜索的步骤。gydF4y2BaBhardwaj et al。(2017)gydF4y2Ba定义了搜索过程作为一个马尔可夫决策过程,并使用动态规划的cost-to-go值来估计每个可能的样本。在(gydF4y2BaJurgenson和他玛,2019gydF4y2Ba),修改后的深决定性策略梯度(DDPG)算法学习控制策略通过试错的方式,生成数据和更合理的分配,包括无碰撞专家数据和数据,逃的障碍。gydF4y2BaJinwook et al。(2022)gydF4y2Ba,新的列车高阶函数网络代表cost-to-go功能的配置空间。在规划阶段,经过训练的网络生成一个光滑连续cost-to-go函数直接从工作空间信息。cost-to-go函数的梯度收益率连续无碰撞轨迹。gydF4y2Ba

基于上述学习方法生成低级控制输入,如位置,机器人关节的速度。这些低级控制输入应该进行后期处理被部署到真实的机器人系统。gydF4y2Ba

2.2部署生成的机器人系统的轨迹gydF4y2Ba

上面提到的工作专注于改善和验证性能的无碰撞运动规划算法在仿真环境中而不是如何部署计划中的机器人运动的机器人系统。gydF4y2BaBhardwaj et al。(2017)gydF4y2Ba;gydF4y2BaJurgenson和他玛(2019)gydF4y2Ba,gydF4y2Ba莫利纳et al。(2020)gydF4y2Ba,gydF4y2Ba沙,斯利瓦斯塔瓦(2022)gydF4y2Ba只有验证算法在仿真环境中。gydF4y2Ba嗯和李(2018)gydF4y2Ba,gydF4y2Ba库雷希et al。(2019)gydF4y2Ba,gydF4y2Ba程et al。(2020)gydF4y2Ba,gydF4y2Ba库雷希et al。(2020)gydF4y2Ba,gydF4y2BaGaebert和托马斯(2022)gydF4y2Ba,gydF4y2BaJinwook et al。(2022)gydF4y2Ba部署计划的轨迹在实际机器人系统通过使用额外的控制器实时控制机器人运动,如机器人操作系统(gydF4y2Ba奎格利et al ., 2009gydF4y2Ba)。在这些方法中,机器人通常在低速运行,确保机器人可以精确地跟踪计划无碰撞运动。gydF4y2Ba

Rahali et al。(2022)gydF4y2Ba和gydF4y2BaTan et al。(2023)gydF4y2Ba使用不同的算法来降低机器人的运动跟踪错误。然而,这些方法需要识别和机器人的动力学建模。算法(gydF4y2BaElhaki et al ., 2022gydF4y2Ba;gydF4y2BaElhaki Shojaei, 2022gydF4y2Ba)是用来控制多体系统,如拖拉机和水下车辆,不需要详细的系统模型。不同于这些系统、工业机器人的控制系统。任何额外的控制算法必须运行在一个额外的控制器和控制机器人的电机通过一个接口提供的机器人的控制系统(gydF4y2Ba图2一个gydF4y2Ba)。这种控制架构的稳定性无法保证,因为一些参数循环内部控制的机器人控制系统无法访问。此外,额外的控制器和机器人之间的通信时间控制系统也会影响整个控制体系结构的稳定性和性能。例如,库卡重型机器人的控制系统提供了一个基于以太网的通信接口(机器人传感器接口(RSI)使用一个额外的控制回路来控制机器人的运动。这个通信接口的周期时间是4gydF4y2Ba $米gydF4y2Ba 年代gydF4y2Ba$ 。因此,它限制了控制算法来减少跟踪误差在更高频率的控制。在一些工业应用,高速和长途机器人运动4gydF4y2Ba $米gydF4y2Ba 年代gydF4y2Ba$ 可能会导致重大的跟踪错误。gydF4y2Ba

同样,上述方法使用额外的控制回路实时控制机器人跟踪运动计划和内插在离线阶段。相比之下,该方法不需要额外的控制回路来追踪计划的运动建议的方法生成无碰撞运动以来高层命令,可以直接执行的机器人控制系统与一个小偏离计划的运动不到平均。gydF4y2Ba

3问题定义gydF4y2Ba

本节描述这个工作和正式定义中使用的符号我们考虑的问题。gydF4y2Ba

让gydF4y2Ba $χgydF4y2Ba \subseteqgydF4y2Ba {RgydF4y2Ba}^{dgydF4y2Ba}$ 配置空间机器人系统的自由度gydF4y2Ba $dgydF4y2Ba \ingydF4y2Ba NgydF4y2Ba,gydF4y2Ba dgydF4y2Ba >gydF4y2Ba 2gydF4y2Ba$ 。让gydF4y2Ba $UgydF4y2Ba \subseteqgydF4y2Ba {RgydF4y2Ba}^{dgydF4y2Ba}$ 是一个机器人系统的控制输入空间。让机器人的离散时间动态定义gydF4y2Ba ${fgydF4y2Ba}_{χgydF4y2Ba}$ :gydF4y2Ba

\begin{array}{c} {xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba} =gydF4y2Ba {fgydF4y2Ba}_{χgydF4y2Ba} ({xgydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{kgydF4y2Ba}) \end{array} (gydF4y2Ba 1gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba} \ingydF4y2Ba χgydF4y2Ba$ 和gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba} \ingydF4y2Ba UgydF4y2Ba$ 表示系统的状态和控制输入gydF4y2Ba $kgydF4y2Ba$ th搜索步骤。gydF4y2Ba

与描述的方法(gydF4y2BaBhardwaj et al ., 2017gydF4y2Ba;gydF4y2Ba嗯,李,2018年gydF4y2Ba;gydF4y2BaJurgenson和他玛,2019gydF4y2Ba;gydF4y2Ba库雷希et al ., 2019gydF4y2Ba;gydF4y2Ba程et al ., 2020gydF4y2Ba;gydF4y2Ba莫利纳et al ., 2020gydF4y2Ba;gydF4y2Ba库雷希et al ., 2020gydF4y2Ba;gydF4y2BaGaebert和托马斯,2022年gydF4y2Ba;gydF4y2BaJinwook et al ., 2022gydF4y2Ba;gydF4y2Ba沙斯利瓦斯塔瓦,2022年gydF4y2Ba),这项工作考虑高级运动命令机器人处理应用中常用的控制输入gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 。这些命令通常由运动类型(如点对点、直线和圆运动)和运动参数,如运动速度和达到理想的状态。gydF4y2Ba

这项工作考虑静态障碍和动态障碍物的运动是已知的。例如,对于多机器人系统运动的机器人通常是计划一个接一个。当给定机器人的运动规划,其他机器人的运动是已知的。让gydF4y2Ba ${χgydF4y2Ba}_{fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba bgydF4y2Ba lgydF4y2Ba egydF4y2Ba,gydF4y2Ba tgydF4y2Ba} \subseteqgydF4y2Ba χgydF4y2Ba$ 定义可行状态空间机器人系统,机器人没有撞上的静态和动态障碍物的步伐gydF4y2Ba $tgydF4y2Ba$ ,gydF4y2Ba ${xgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba tgydF4y2Ba} \ingydF4y2Ba {χgydF4y2Ba}_{fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba bgydF4y2Ba lgydF4y2Ba egydF4y2Ba,gydF4y2Ba 0gydF4y2Ba}$ 初始状态,gydF4y2Ba ${xgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba} \ingydF4y2Ba {χgydF4y2Ba}_{fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba bgydF4y2Ba lgydF4y2Ba egydF4y2Ba,gydF4y2Ba tgydF4y2Ba}$ 我们的目标状态。gydF4y2Ba

在这项工作中,轨迹gydF4y2Ba $πgydF4y2Ba$ 被定义为一系列的州和高级控制命令:gydF4y2Ba

\begin{array}{c} πgydF4y2Ba =gydF4y2Ba ({xgydF4y2Ba}_{0gydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{0gydF4y2Ba},gydF4y2Ba {xgydF4y2Ba}_{{tgydF4y2Ba}_{0gydF4y2Ba}},gydF4y2Ba {xgydF4y2Ba}_{1gydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{1gydF4y2Ba},gydF4y2Ba {xgydF4y2Ba}_{{tgydF4y2Ba}_{1gydF4y2Ba}},gydF4y2Ba \dotsgydF4y2Ba,gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {xgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}}) \end{array} (gydF4y2Ba 2gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba}$ 的步伐gydF4y2Ba $kgydF4y2Ba$ thgydF4y2Ba通过gydF4y2Ba点的轨迹。gydF4y2Ba

3.1主要问题gydF4y2Ba

对于复杂环境和机器人系统具有高自由度(自由度),运动规划问题的解空间维。即使使用sampling-based技术解决方案空间含蓄地表示,它不能被有效地搜索。在这部作品中,建议的方法集中在学习运动规划问题的可行解空间,从以前的经验来提高搜索效率。换句话说,该方法首先学会感知机器人周围的环境。那么机器人动力学学会仔细地模拟现实的机器人运动。最后,该方法学习最优高层命令可以移动机器人对目标区域与现实的感知环境中的动力学模型在每个搜索的步骤。gydF4y2Ba

3.2子问题1:学习当地的可行解空间的运动规划问题gydF4y2Ba

自学习完整的解决方案空间是非常困难和不能很好地扩展到其他问题,我们的方法开始学习当地的可行解空间gydF4y2Ba ${lgydF4y2Ba}_{lgydF4y2Ba ogydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}$ :gydF4y2Ba

\begin{array}{c} {lgydF4y2Ba}_{lgydF4y2Ba ogydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba} ({xgydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {ϕgydF4y2Ba}_{kgydF4y2Ba} |gydF4y2Ba {xgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba} \togydF4y2Ba {ugydF4y2Ba}_{kgydF4y2Ba}) \end{array} (gydF4y2Ba 3gydF4y2Ba)gydF4y2Ba

局部可行解空间包含所有可行的控制策略只考虑本地系统状态(例如,环境的状态gydF4y2Ba ${ϕgydF4y2Ba}_{kgydF4y2Ba}$ ,机器人的当前状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 和目标状态gydF4y2Ba ${χgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}$ )和指导机器人当前状态与控制命令向目标区域gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 在gydF4y2Ba $kgydF4y2Ba$ th搜索步骤。gydF4y2Ba

3.3子问题2:合适的表示的动态环境gydF4y2Ba

因为这项工作考虑静态和动态障碍物的环境,环境的几何和时间信息应该表示为环境状态gydF4y2Ba ${ϕgydF4y2Ba}_{kgydF4y2Ba}$ 在gydF4y2Ba $kgydF4y2Ba$ th搜索步骤和子问题1中使用。gydF4y2Ba

3.4子问题3:学习机器人动力学gydF4y2Ba ${fgydF4y2Ba}_{χgydF4y2Ba}$ 由高级运动控制命令gydF4y2Ba

机器人运动的执行时间和插值两种状态之间应该计算检查机器人与障碍物之间的碰撞中从一个状态转换到下一个状态在每一个搜索的步骤。如前所述,机器人动力学由高级运动控制命令被视为一个“黑盒子。“因此,建议的方法学习现实的机器人动力学由高级运动控制命令,并使用它来计算实际的机器人运动。gydF4y2Ba

4种方法gydF4y2Ba

该方法的核心是三个神经网络(gydF4y2Ba图3gydF4y2Ba第三节中描述),解决的主要问题。章节4.1 - -4.3描述每个神经网络的功能以及如何解决相应的子问题。然后我们给的概述整个管道在4.4节提出的方法。gydF4y2Ba

图3gydF4y2Ba

图3gydF4y2Ba。建筑和规划提出方法的管道。gydF4y2Ba

4.1动态环境表示网络子问题2gydF4y2Ba

由于动态障碍物的运动,环境可以离散成一系列的帧。3 d模型,如环境在每一帧的体素模型,可以表示空间和几何信息。gydF4y2Ba

然而,直接使用这个高维表示为子问题2学习控制策略会导致大规模的网络,可能很难火车。因此,一个单独的网络结构是用于提取环境的时空特征的低维表示。gydF4y2Ba

首先,一个编码器嵌入在每个离散体元模型的动态环境步伐进入一个隐藏的向量gydF4y2Ba ${年代gydF4y2Ba}_{tgydF4y2Ba}$ 。让表示这个嵌入gydF4y2Ba $hgydF4y2Ba ({ϕgydF4y2Ba}_{tgydF4y2Ba})$ ,压缩空间的动态环境gydF4y2Ba ${ϕgydF4y2Ba}_{tgydF4y2Ba}$ 的步伐gydF4y2Ba $tgydF4y2Ba$ :gydF4y2Ba

\begin{array}{c} {年代gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba hgydF4y2Ba ({ϕgydF4y2Ba}_{tgydF4y2Ba}) \end{array} (gydF4y2Ba 4gydF4y2Ba)gydF4y2Ba

然后一个RNN-based编码器嵌入暂时命令隐藏的向量gydF4y2Ba ${年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ …,gydF4y2Ba ${年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba ngydF4y2Ba}$ 到一个隐藏的向量gydF4y2Ba ${zgydF4y2Ba}_{tgydF4y2Ba}$ 代表环境的时间信息在当前的步伐gydF4y2Ba $tgydF4y2Ba$ 。gydF4y2Ba

\begin{array}{c} {zgydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba rgydF4y2Ba ({年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba},gydF4y2Ba \dotsgydF4y2Ba,gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba ngydF4y2Ba}) \end{array} (gydF4y2Ba 5gydF4y2Ba)gydF4y2Ba

4.2高级控制策略网络子问题1gydF4y2Ba

高级控制策略网络是该方法的核心组件。让表示高级控制政策网络gydF4y2Ba ${问gydF4y2Ba}_{θgydF4y2Ba}$ 与它的参数gydF4y2Ba

\begin{array}{c} {ugydF4y2Ba}_{kgydF4y2Ba} =gydF4y2Ba {问gydF4y2Ba}_{θgydF4y2Ba} ({xgydF4y2Ba}_{kgydF4y2Ba} {,gydF4y2Ba zgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}},gydF4y2Ba {xgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}) \end{array} (gydF4y2Ba 6gydF4y2Ba)gydF4y2Ba

当机器人到达状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 后gydF4y2Ba $kgydF4y2Ba$ th搜索步骤步伐gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba}$ ,网络的当前状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 嵌入的动态环境gydF4y2Ba ${zgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}}$ 在步伐gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba}$ 和目标区域gydF4y2Ba ${χgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}$ 作为输入来生成一个高级运动命令gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 。高级运动命令gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 由命令类型gydF4y2Ba ${cgydF4y2Ba}_{kgydF4y2Ba}$ 和相应的运动参数,如运动速度gydF4y2Ba ${vgydF4y2Ba}_{kgydF4y2Ba}$ 和期望状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 达到了。gydF4y2Ba

4.3高层控制机器人动力学网络子问题3gydF4y2Ba

我们设计了一个神经网络来预测机器人的动力学控制的高级命令。这个网络谓词执行时间和插值的高级运动命令。gydF4y2Ba

\begin{array}{c} {{\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba} =gydF4y2Ba fgydF4y2Ba}_{egydF4y2Ba xgydF4y2Ba egydF4y2Ba cgydF4y2Ba ugydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba_gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba egydF4y2Ba} ({xgydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{kgydF4y2Ba}) \end{array} (gydF4y2Ba 7gydF4y2Ba)gydF4y2Ba

\begin{array}{c} {xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba} =gydF4y2Ba {fgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba tgydF4y2Ba egydF4y2Ba rgydF4y2Ba pgydF4y2Ba ogydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba} ({xgydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {ugydF4y2Ba}_{kgydF4y2Ba},gydF4y2Ba {tgydF4y2Ba}_{kgydF4y2Ba} +gydF4y2Ba ngydF4y2Ba ∇gydF4y2Ba tgydF4y2Ba) \end{array} (gydF4y2Ba 8gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${fgydF4y2Ba}_{egydF4y2Ba xgydF4y2Ba egydF4y2Ba cgydF4y2Ba ugydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba_gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba egydF4y2Ba}$ 表示谓词执行时间的函数gydF4y2Ba ${\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba}$ ,gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 当前状态和gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 分别运动命令。gydF4y2Ba ${fgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba tgydF4y2Ba egydF4y2Ba rgydF4y2Ba pgydF4y2Ba ogydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba}$ 表示谓词函数插值的机器人运动状态gydF4y2Ba ${\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}$ 在gydF4y2Ba $ngydF4y2Ba$ th步伐gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba} +gydF4y2Ba ngydF4y2Ba \nablagydF4y2Ba tgydF4y2Ba$ ,在那里gydF4y2Ba $\nablagydF4y2Ba tgydF4y2Ba$ 表示插值分辨率。gydF4y2Ba

4.4机器人运动规划,学会了可行解空间gydF4y2Ba

整个管道的建议的方法包括以下程序。gydF4y2Ba

4.1.1数据收集gydF4y2Ba

首先,上述神经网络训练的专家数据应该收集。该方法需要大量的真实数据,这是昂贵的时间和资源。因此,near-realistic模拟环境视觉组件(gydF4y2Ba可视化组件,2021gydF4y2Ba)是用于生成现实的数据集和验证计划的结果。可视化组件包含一个离线编程系统,可以连接VRC模块(虚拟机器人控制器)(gydF4y2Ba伯恩哈特et al ., 1994gydF4y2Ba)。VRC模块集成了最初的机器人控制器和提供了一个模拟的准确性.00005弧度和1%的周期时间。在这个工作,在仿真环境中收集数据。gydF4y2Ba

4.4.4.1环境数据gydF4y2Ba

在机器人离线编程中,生产单元的几何表示通过3 d多边形网格模型在仿真软件。多边形网格模型的出口环境中的障碍和收集原始数据训练网络动态环境中表示。障碍的3 d多边形网格光栅成三维体素模型,因为3 d立体像素网格高度常规数据格式,适合表示学习。代表点云的环境相比,体素模型的分辨率可以很容易地适应环境的不同要求不同的机器人应用程序的表示。gydF4y2Ba

例如,在一些高速处理任务,机器人应该保持一个安全的环境中障碍物的距离。在这种情况下,立体像素网格的边缘长度的障碍应该增加到机器人和障碍物之间留出足够的空间(gydF4y2Ba图4一gydF4y2Ba)。然而,对于任务要求机器人执行的操作,如在焊枪点焊任务进入一些狭窄的领域,我们需要增加体素模型的分辨率来表示的更多细节狭窄的领域(gydF4y2Ba图4 bgydF4y2Ba)。gydF4y2Ba

图4gydF4y2Ba

图4gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba体元模型与低分辨率(每个立体像素边缘的长度gydF4y2Ba $8gydF4y2Ba cgydF4y2Ba 米gydF4y2Ba$ )。gydF4y2Ba(B)gydF4y2Ba体元模型与高分辨率(每个立体像素边缘的长度gydF4y2Ba $1gydF4y2Ba cgydF4y2Ba 米gydF4y2Ba$ )。gydF4y2Ba

4.4.4.2机器人项目gydF4y2Ba

机器人程序的场景不同的应用程序收集学习高级运动命令。机器人程序包括高层次的运动命令,这是程序手动或自动通过其他运动规划。这些机器人程序应该执行和验证在实际机器人系统或near-realistic仿真环境,确保编程机器人无碰撞运动。gydF4y2Ba

4.4.4.3现实的机器人运动gydF4y2Ba

培训高级控制机器人动力学网络需要现实的机器人动作执行的机器人控制系统。一方面,4.4.1.2节生成的机器人无碰撞运动是被重用。另一方面,更高层的命令是随机生成的。这些命令还应该真正的机器人系统上执行或near-realistic收集实际的机器人运动仿真环境。gydF4y2Ba

10/24/11模型训练gydF4y2Ba

在第二个程序,4.3节中描述的三种神经网络训练4.1.1节中收集的数据。所有三个神经网络以离线监督的方式训练。模型训练的实验设置在5.2节详细。gydF4y2Ba

离线机器人运动规划gydF4y2Ba

在离线规划过程中,经过训练的神经网络模型用于搜索机器人无碰撞运动的初始状态gydF4y2Ba ${xgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba tgydF4y2Ba}$ 到目标状态gydF4y2Ba ${xgydF4y2Ba}_{ggydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}$ 。搜索过程从初始状态开始gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 。在每个搜索步骤gydF4y2Ba $kgydF4y2Ba$ (在步伐gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba}$ ),动态环境表示网络嵌入动态环境隐藏到一个低维向量gydF4y2Ba ${zgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}}$ (见蓝色块gydF4y2Ba图3gydF4y2Ba)。gydF4y2Ba ${zgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}}$ 然后送入高层控制政策网络的当前状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 和目标状态gydF4y2Ba ${xgydF4y2Ba}_{tgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba egydF4y2Ba tgydF4y2Ba}$ 生成一个高级运动命令gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 组成的运动命令类型和运动参数(见橙色块gydF4y2Ba图3gydF4y2Ba)。然后需要高级控制机器人动力学网络gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 作为输入预测插值州gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}$ 和执行时间gydF4y2Ba ${\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba}$ 运动到下一个搜索的步骤。对于每个插值状态,机器人与障碍物之间的碰撞检查使用传统的正运动学和碰撞检测算法(gydF4y2Ba潘et al ., 2012gydF4y2Ba)。如果该机器人无碰撞运动,gydF4y2Ba ${ugydF4y2Ba}_{kgydF4y2Ba}$ 将被添加到搜索树和搜索过程将运输到下一个状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 的步伐gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba} +gydF4y2Ba {\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba}$ (见的绿色块gydF4y2Ba图3gydF4y2Ba)。规划管道重复直到到达目标状态。gydF4y2Ba

4.4.4部署机器人运动机器人系统gydF4y2Ba

机器人运动规划的建议的方法是在一个高级运动命令的一般格式。因为机器人编程机器人必须遵循manufacture-specific编程规则,高级运动命令的一般格式应该转化为机器人手机生产商的特殊用户使用后处理器的编程语言。然后机器人程序可以直接上传到机器人控制系统。应该注意的是,这里的后处理是句法的谈话,这是不同于1.1节中提到的后处理。gydF4y2Ba

5实验的设计和实现gydF4y2Ba

本节实验报告设置和建议的方法的实现细节。gydF4y2Ba

5.1实验设置gydF4y2Ba

我们评估该方法在两个工业应用:处理应用程序有两个SCARA机器人和机器管理应用程序与一个六轴重型机器人。gydF4y2Ba

5.1.1 SCARA机器人处理应用程序gydF4y2Ba

在这个应用程序中,两个SCARA机器人在不同环境中执行拾起并定位任务包含静态和动态障碍物。重要的是要注意,虽然这个应用程序包含两个SCARA机器人,只有一个机器人的运动需要计划,和其他机器人被看作是一个静态或动态的障碍。gydF4y2Ba表1gydF4y2Ba细节的静态和动态障碍在四个不同类别的环境。在这个应用程序中,我们专注于评估离线规划阶段。因此,只有验证计划的运动仿真环境(gydF4y2Ba图5一个gydF4y2Ba)。gydF4y2Ba

表1gydF4y2Ba

表1gydF4y2Ba。SCARA机器人处理应用程序的四个类别的环境用于实验。gydF4y2Ba

图5gydF4y2Ba

图5gydF4y2Ba。gydF4y2Ba(一)gydF4y2BaSCARA机器人处理应用程序(只有在模拟环境中)。gydF4y2Ba(B)gydF4y2Ba六轴重型工业机器人的机器管理应用程序。gydF4y2Ba

5.1.2机器管理应用程序gydF4y2Ba

这个应用程序评估该方法高维问题域的运动规划。一个六轴重型机床机器人加载和卸载。不同于SCARA机器人处理应用程序,这个应用程序的机器人运动计划将被部署和验证在实际的机器人机器管理系统评估完成管道从规划到部署机器人运动(gydF4y2Ba图5 bgydF4y2Ba)。gydF4y2Ba

5.2实现gydF4y2Ba

本节描述神经网络的结构模型和数据集。gydF4y2Ba

5.2.1网络动态环境中表示gydF4y2Ba

动态环境中表示网络使用基础结构的变分Autoencoders (VAE) (gydF4y2BaKingma和湿润,2014gydF4y2Ba)有5个3 d-cnn层(gydF4y2Ba霁et al ., 2013gydF4y2Ba)压缩的静态障碍物环境中的20维嵌入。在动态环境中,例如,在SCARA机器人处理应用程序中,一个3 - layer RNN编码器与十单位嵌入随时间变化的动态环境。每个十单位接受20维嵌入一帧的动态环境和RNN编码器最后产生一个嵌入向量的动态环境。(见蓝色块gydF4y2Ba图3gydF4y2Ba)。gydF4y2Ba

SCARA机器人处理应用程序,我们随机生成1000环境。每个环境都包含一个不同数量的静态圆柱形或立方障碍和SCARA机器人视为一个动态的障碍。然后我们记录每50毫秒一帧的动态环境。环境在每一帧是voxelized和送入VAE产生一个嵌入的环境。我们十帧环境嵌入伴随着当前步伐作为训练数据元组RNN编码器。gydF4y2Ba

500年机器管理应用程序,生成静态环境。在每个环境,我们选择五个不同的机床之一,并将其随机可及工作空间内的机器人。gydF4y2Ba

5.2.2高级控制政策网络gydF4y2Ba

一个高级运动命令由运动类型和运动参数。在这个工作我们考虑的点对点(PTP)和线性运动SCARA机器人的六轴机器人。两个运动的运动参数命令运动速度gydF4y2Ba ${vgydF4y2Ba}_{kgydF4y2Ba}$ 和国家gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 达到了。gydF4y2Ba

高级控制策略网络包含两个分支:一个生成运动类型(运动类型预测分支)和其他生成运动参数(运动参数预测分支)。这两个分支机构采取相同的输入:目标状态gydF4y2Ba ${xgydF4y2Ba}_{GgydF4y2Ba ogydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba}$ ,当前状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 和环境的嵌入gydF4y2Ba ${zgydF4y2Ba}_{{tgydF4y2Ba}_{kgydF4y2Ba}}$ 在搜索步骤gydF4y2Ba $kgydF4y2Ba$ 。gydF4y2Ba

SCARA机器人的运动类型预测分支处理和机器管理应用程序包含10和12完全连接隐藏层其后Softmax层二维输出,分别。运动参数预测分支是总统夫人提出神经网络对SCARA机器人处理应用程序和15-layer神经网络机器管理应用程序,分别。与网络结构产生样本在每个搜索步骤(gydF4y2BaBdiwi et al ., 2018gydF4y2Ba),我们不使用辍学层实现的特性转化运动参数预测分支,因为辍学层影响神经网络的收敛性。VAE的结构的启发,我们应用前两个隐藏层输出层同时生成两个向量:手段和标准偏差矢量的运动参数。输出层样品的最终预测运动参数的均值和标准差。(见的绿色块gydF4y2Ba图3gydF4y2Ba)。gydF4y2Ba

在5.2节中生成的环境,我们为培训高级控制策略网络收集数据。每个环境的SCARA机器人处理应用程序和机器管理应用程序包含50 start-goal对。为了使数据更接近真实的机器管理应用程序,每个start-goal的起始位置和目标位置必须位于一对在机床工作台。gydF4y2Ba

一种改进的RRT *方法(gydF4y2Ba奥托et al ., 2021gydF4y2Ba)用于计划轨迹数据专家。不同于基本RRT,改善RRT *方法后处理机器人运动计划使用PTP和线性插值,生成含有高级运动命令。机器人运动进行后期处理的改进RRT *算法执行期间可能与静态和动态障碍物相撞,由于机器人动力学和控制参数的不准确的估计在计划阶段。因此,我们执行所有生成的轨迹与VRC仿真环境可视化组件模块,只添加无碰撞轨迹和相应的环境模型训练集(gydF4y2Ba图6gydF4y2Ba)。gydF4y2Ba

图6gydF4y2Ba

图6gydF4y2Ba。程序收集数据集高级控制政策网络。gydF4y2Ba

两个分支的网络监督的方式训练。第一个分支的损失gydF4y2Ba ${lgydF4y2Ba}_{TgydF4y2Ba} (θgydF4y2Ba)$ 被定义为:gydF4y2Ba

\begin{array}{c} {lgydF4y2Ba}_{TgydF4y2Ba} (θgydF4y2Ba) =gydF4y2Ba -gydF4y2Ba {\sumgydF4y2Ba}_{我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba}^{2gydF4y2Ba} {cgydF4y2Ba}_{我gydF4y2Ba} gydF4y2Ba 日志gydF4y2Ba ({pgydF4y2Ba}_{我gydF4y2Ba}) \end{array} (gydF4y2Ba 9gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba $我gydF4y2Ba$ 显示类别的运动命令类型gydF4y2Ba $cgydF4y2Ba$ 和gydF4y2Ba ${pgydF4y2Ba}_{我gydF4y2Ba}$ 代表命令类型的预测概率gydF4y2Ba ${cgydF4y2Ba}_{我gydF4y2Ba}$ 。gydF4y2Ba

第二个分支的损失gydF4y2Ba ${lgydF4y2Ba}_{PgydF4y2Ba} (θgydF4y2Ba)$ 被定义为:gydF4y2Ba

\begin{array}{c} {lgydF4y2Ba}_{PgydF4y2Ba} (θgydF4y2Ba) =gydF4y2Ba ||{\overset{^gydF4y2Ba}{vgydF4y2Ba}}_{kgydF4y2Ba} -gydF4y2Ba {vgydF4y2Ba}_{kgydF4y2Ba}|| +gydF4y2Ba ||{\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba} -gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}|| \end{array} (gydF4y2Ba 10gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${\overset{^gydF4y2Ba}{vgydF4y2Ba}}_{kgydF4y2Ba}$ 和gydF4y2Ba ${\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 建立运动参数。gydF4y2Ba ${vgydF4y2Ba}_{kgydF4y2Ba}$ 和gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 是相应的地面实况。我们用亚当优化器(gydF4y2BaKingma和亚当,2015年gydF4y2Ba与最初的学习速率措施,势头。9。学习速率是每个50时期下降了一半。gydF4y2Ba

5.2.3高层控制机器人动力学网络gydF4y2Ba

高级控制机器人动力学网络有两个分支,插值预测分支和执行时间预测分支状态,预测插值状态和现实的机器人运动的执行时间。gydF4y2Ba

插值状态预测分支由12和14完全连接隐藏层的SCARA机器人处理和机器管理应用程序,分别。执行时间预测分支由10和11完全连接隐藏层的SCARA机器人处理和机器管理应用程序,分别。插值状态预测分支的当前状态gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba}$ 和运动命令gydF4y2Ba ${cgydF4y2Ba}_{kgydF4y2Ba}$ 与运动参数(gydF4y2Ba ${vgydF4y2Ba}_{kgydF4y2Ba}$ 和gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba}$ 点对点和直线运动)作为输入谓词执行时间gydF4y2Ba ${\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{我gydF4y2Ba}$ 。一个给定的插值一步gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba} +gydF4y2Ba ngydF4y2Ba \nablagydF4y2Ba tgydF4y2Ba$ 连同相同的输入作为插值国家预测分支输入执行时间预测分支预测插值的机器人gydF4y2Ba ${\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}$ 在给定的插值一步gydF4y2Ba ${tgydF4y2Ba}_{kgydF4y2Ba} +gydF4y2Ba ngydF4y2Ba \nablagydF4y2Ba tgydF4y2Ba$ (见橙色块gydF4y2Ba图3gydF4y2Ba)。gydF4y2Ba

VRC模块的可视化组件执行一万SCARA机器人的运动命令和一万五千六轴重型机器人的运动命令。执行时间和插值的运动执行命令记录的数据集。gydF4y2Ba

第一和第二分支被训练使用标准L2损失函数gydF4y2Ba ${lgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba tgydF4y2Ba egydF4y2Ba rgydF4y2Ba pgydF4y2Ba ogydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba} (θgydF4y2Ba)$ 和gydF4y2Ba ${lgydF4y2Ba}_{EgydF4y2Ba xgydF4y2Ba egydF4y2Ba cgydF4y2Ba ugydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba egydF4y2Ba} (θgydF4y2Ba)$ 分别为:gydF4y2Ba

\begin{array}{c} {lgydF4y2Ba}_{我gydF4y2Ba ngydF4y2Ba tgydF4y2Ba egydF4y2Ba rgydF4y2Ba pgydF4y2Ba ogydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba} (θgydF4y2Ba) =gydF4y2Ba ||{\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba} -gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}|| \end{array} (gydF4y2Ba 11gydF4y2Ba)gydF4y2Ba

\begin{array}{c} {lgydF4y2Ba}_{EgydF4y2Ba xgydF4y2Ba egydF4y2Ba cgydF4y2Ba ugydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba egydF4y2Ba} (θgydF4y2Ba) =gydF4y2Ba ||{\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba} -gydF4y2Ba {TgydF4y2Ba}_{kgydF4y2Ba}|| \end{array} (gydF4y2Ba 12gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}$ 和gydF4y2Ba ${\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba ngydF4y2Ba}$ 表示地面真理和机器人状态的预测插值一步gydF4y2Ba $ngydF4y2Ba$ ,分别。gydF4y2Ba ${TgydF4y2Ba}_{kgydF4y2Ba}$ 和gydF4y2Ba ${\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba}$ 表示地面真理和执行时间的预测,分别。在训练中,我们使用随机梯度下降法(SGD)[35]最初学习速率.0005和动量。8。gydF4y2Ba

6的结果和讨论gydF4y2Ba

对于每个应用程序,这部分评估该方法在100年新环境,不习惯的训练阶段。在每个环境中,20条开始,目标是随机生成的。RRT的性能,改善RRT *,并分析了该方法的有效性,轨迹的执行时间和计算时间。gydF4y2Ba

6.1有效性的轨迹gydF4y2Ba

但是SCARA处理应用程序gydF4y2Ba

SCARA处理应用程序,机器人运动规划由不同的规划者只有验证离线可视化组件。gydF4y2Ba图7gydF4y2Ba显示了一个示例的一个无效的轨迹生成的RRT。gydF4y2Ba图7gydF4y2Ba显示,当SCARA机器人遵循计划的轨迹,机器人通过右边的共享区域之前,机器人在左边。机器人的运动执行低于计算在计划阶段和进入共享面积比原定时间晚了,导致碰撞立方障碍(gydF4y2Ba图7 bgydF4y2Ba)。gydF4y2Ba

图7gydF4y2Ba

图7gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba计划无碰撞轨迹。gydF4y2Ba(B)gydF4y2Ba执行轨迹与碰撞。gydF4y2Ba

SCARA处理应用程序的在所有情况下,只有5.2%的我们的方法生成的轨迹是无效的,因为训练的高级机器人动力学的网络可以谓词机器人运动控制的更准确地在计划阶段。gydF4y2Ba表2gydF4y2Ba显示了训练模型在预测的相对误差运动插值和执行时间。在所有实验场景,实际执行时间和预测值之间的平均误差的高级运动命令是5%。此外,gydF4y2Ba表2gydF4y2Ba表明,该预测点对点运动误差小于预测线性运动。原因是预测的动态线性运动需要估计逆运动学模型,这就增加了预测误差。gydF4y2Ba

表2gydF4y2Ba

表2gydF4y2Ba。高级机器人动力学控制网络的平均预测误差。在预测执行时间被定义为的错误gydF4y2Ba $\frac{{\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba} -gydF4y2Ba {TgydF4y2Ba}_{kgydF4y2Ba}}{{TgydF4y2Ba}_{kgydF4y2Ba}}$ ,在那里gydF4y2Ba ${\overset{^gydF4y2Ba}{TgydF4y2Ba}}_{kgydF4y2Ba}$ 和gydF4y2Ba ${TgydF4y2Ba}_{kgydF4y2Ba}$ 预计执行时间和实际执行时间,分别。预测的误差运动插值的定义是gydF4y2Ba $\frac{{\sumgydF4y2Ba}_{0gydF4y2Ba}^{我gydF4y2Ba} |({\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba 我gydF4y2Ba} -gydF4y2Ba {xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba 我gydF4y2Ba})|}{{lgydF4y2Ba}_{kgydF4y2Ba}}$ ,在那里gydF4y2Ba ${\overset{^gydF4y2Ba}{xgydF4y2Ba}}_{kgydF4y2Ba,gydF4y2Ba 我gydF4y2Ba}$ 和gydF4y2Ba ${xgydF4y2Ba}_{kgydF4y2Ba,gydF4y2Ba 我gydF4y2Ba}$ 预测和地面实况的机器人机器人运动状态插值一步,分别。gydF4y2Ba ${lgydF4y2Ba}_{kgydF4y2Ba}$ 是欧几里得距离沿着机器人运动执行。因为机器管理的六轴机器人应用程序不需要避免机器管理应用程序中的其他动态障碍物,机器人移动速度100%覆盖达到最短的周期时间。gydF4y2Ba

6.1.2机器管理应用程序gydF4y2Ba

机器管理应用程序,我们部署机器人运动规划以不同的方式对实体机器人离线。该方法生成高级运动命令可以直接上传到机器人控制系统(见gydF4y2Ba图2 cgydF4y2Ba)。因为改善RRT *利用插值算法将计划中的机器人运动高级运动命令,生成的命令也可以上传到机器人运动控制系统(见gydF4y2Ba图2 bgydF4y2Ba)。RRT生成低级控制输入,应该执行一个额外的控制循环(见gydF4y2Ba图2一个gydF4y2Ba)。gydF4y2Ba

在gydF4y2Ba图8gydF4y2Ba,我们可以看到机器人运动规划的改进RRT *显著偏离了机器人运动控制系统执行。因为控制算法的改进RRT *计划阶段中使用不同于控制算法的机器人控制系统中使用离线规划阶段,改善RRT *假设关节可以达到的最大加速度。然而,在现实中,机器人控制系统仅适用于60%和45%最大加速度的第一和第二关节,分别。gydF4y2Ba

图8gydF4y2Ba

图8gydF4y2Ba。计划的联合运动改善RRT *方法(蓝线)和联合运动执行的机器人控制系统(橙色线)。gydF4y2Ba

控制输入和实际值被记录在机器人运动控制的执行额外的控制回路(gydF4y2Ba图9gydF4y2Ba)。额外的控制器试图开车第一和第二关节最大加速度,但内部电动机控制器限制关节达到最大值。然后关节加速度的波动引发机器人控制系统的安全机制,可以断开之间的通信接口(机器人传感器接口)额外的控制器和机器人控制系统。gydF4y2Ba

图9gydF4y2Ba

图9gydF4y2Ba。外部控制回路的控制输入(蓝线)和实际联合运动(橙色线)。gydF4y2Ba

图10gydF4y2Ba表明,该机器人运动计划的建议的方法接近运动执行的机器人控制系统。我们可以看到,经过训练的神经网络具有学习控制机器人的行为(加速和减速)谓词插值的机器人运动控制系统。gydF4y2Ba

图10gydF4y2Ba

图10gydF4y2Ba。关节运动计划的建议的方法(蓝线)和联合运动执行的机器人控制系统(橙色线)。gydF4y2Ba

6.2执行时间的轨迹gydF4y2Ba

我们比较了提出的轨迹生成的方法的执行时间,RRT和改进RRT * (gydF4y2Ba表3gydF4y2Ba)。gydF4y2Ba

表3gydF4y2Ba

表3gydF4y2Ba。平均执行时间的轨迹生成建议的方法和基准的方法。gydF4y2Ba

有必要注意轨迹的执行时间变化明显由于启动和目标之间的不同距离的状态。比较不同方法的性能更合理,我们计划任务分成三个类别进行分类根据启动和目标之间的距离:1。近距离(机器人的范围小于30%),2。中间的距离(大30%,但小机器人的范围)的60%和3。远的距离(大60%的机器人的范围)。的平均执行时间可以看出,该方法生成的轨迹是百分之二十的速度比RRT SCARA机器人处理应用程序。自从RRT的数量*优化改善gydF4y2Ba通过gydF4y2Ba点,同时扩大搜索树,生成的轨迹的执行时间建议的方法本质上是一样的。然而,优化计算时间增加,见6.3节。因为所有机器管理应用程序的场景很简单,每种方法的运动计划的执行时间略有不同。gydF4y2Ba

图11gydF4y2Ba显示有效的建议的方法生成的轨迹和RRT示例场景。该方法生成一个轨迹只包含三个高级运动命令(gydF4y2Ba图11gydF4y2Ba)。第一次和第二次线性运动命令指导机器人通过一个狭窄的区域。机器人离开后狭窄的区域,提出高层控制政策网络地图空周围点对点运动命令,因为点对点运动速度比线性运动。RRT产生更多gydF4y2Ba通过gydF4y2Ba点(gydF4y2Ba图11 bgydF4y2Ba)在狭窄的区域,导致机器人关节的加速和减速。gydF4y2Ba

图11gydF4y2Ba

图11gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba建议的方法生成的轨迹。gydF4y2Ba(B)gydF4y2Ba轨迹生成的RRT示例。绿色的点代表了gydF4y2Ba通过gydF4y2Ba点的轨迹在笛卡尔空间。gydF4y2Ba

6.3计算时间gydF4y2Ba

我们比较建议的方法的计算时间与场景的基准方法不同的复杂性。随着环境变得越来越复杂,我们的方法在计算时间方面的优势是显而易见的(gydF4y2Ba表4gydF4y2Ba)。特别是,该方法比改善RRT快10倍*方法在复杂动态环境的SCARA机器人处理应用程序,因为该方法有效地减少了计算时间,学会了可行解空间中探索。在gydF4y2Ba图12gydF4y2Ba我们想象的所有不同方法生成的样本相同的任务。人们已经发现,基准方法花费了很多时间来生成大量的随机样本。该方法生成更少的样品在基于环境信息的关键领域。gydF4y2Ba

表4gydF4y2Ba

表4gydF4y2Ba。平均计算时间的轨迹生成的建议的方法和基准方法。gydF4y2Ba

图12gydF4y2Ba

图12gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba有效(绿色)和无效(红色)取样器由RRT生成,gydF4y2Ba(B)gydF4y2BaRRT *和gydF4y2Ba(C)gydF4y2Ba建议的方法。gydF4y2Ba

7结论gydF4y2Ba

我们已经提出了一个新颖的深层神经网络产生无碰撞运动轨迹作为高层的命令。生成的轨迹可以直接部署在机器人控制系统没有后处理。此外,实验结果表明,该方法优于基准方法在有效性方面,计划运动的执行时间和计算时间。未来发展方向之一是将我们的数据收集过程和推广我们的网络处理更高层命令机器人具有更高的自由度。gydF4y2Ba

数据可用性声明gydF4y2Ba

在本文中给出的数据并不容易获得,因为NDA是必要的。请求访问数据集应该指向gydF4y2Bashuxiao.hou@iwu.fraunhofer.de。gydF4y2Ba

作者的贡献gydF4y2Ba

上海发展的理论。他工作了几乎所有的技术细节和执行实验。SH写的手稿与所有作者的支持。所有作者讨论的结果和评论手稿。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

引用gydF4y2Ba

Bdiwi, M。侯,S。,Delang, K. (2018). “Human-robot-cooperation real time robot path planning for dynamic HRC-applications,” inIEEE / RSJ智能机器人和系统国际会议gydF4y2Ba,5542年。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

伯恩哈特,R。Schreck, G。,Willnow, C. (1994). The realistic robot simulation (rrs) interface.IFAC Proc。卷IFAC车间智能Manuf。系统。gydF4y2Ba27日,321 - 324。doi: 10.1016 / s1474 - 6670 (17) 46044 - 7gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Bhardwaj, M。,Choudhury, S., and Scherer, S. (2017). “Learning heuristic search via imitation,” in机器人学习会议上gydF4y2Ba,271 - 280。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

程,R。,Shankar, K., and Burdick, J. W. (2020). “Learning an optimal sampling distribution for efficient motion planning,” inIEEE国际会议上智能机器人和系统gydF4y2Ba,gydF4y2BaIEEEgydF4y2Ba,7485 - 7492。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

总体而言,S。,Sucan, I., and Cousins, S. (2012). Moveit![ros topics].IEEE机器人自动化杂志。gydF4y2Ba19(1),18日至19日。doi: 10.1109 / mra.2011.2181749gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Elhaki, O。,Shojaei, K., and Mehrmohammadi, P. (2022). Reinforcement learning-based saturated adaptive robust neural-network control of underactuated autonomous underwater vehicles.专家系统。达成。gydF4y2Ba197年,116714年。doi: 10.1016 / j.eswa.2022.116714gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Elhaki, O。,Shojaei, K. (2022). Output-feedback robust saturated actor–critic multi-layer neural network controller for multi-body electrically driven tractors withngydF4y2Ba拖车保证规定输出约束。gydF4y2Ba机器人。Aut。系统。gydF4y2Ba154年,104106年。doi: 10.1016 / j.robot.2022.104106gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Gaebert C。,Tho米一个年代,U。(2022). “Learning-based adaptive sampling for manipulator motion planning,” inIEEE 18自动化科学与工程国际会议(案例)gydF4y2Ba,gydF4y2Ba墨西哥城,墨西哥gydF4y2Ba,715 - 721。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

豪泽,K。,Ng-Thow-Hing, V. (2010). “Fast smoothing of manipulator trajectories using optimal bounded-acceleration shortcuts,” in2010年IEEE机器人与自动化国际会议上gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba),2493 - 2498。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

嗯,J。,lee,D. D. (2018). Efficient sampling with q-learning to guide rapidly exploring random trees.IEEE机器人自动化。gydF4y2Ba3 (4),3868 - 3875。doi: 10.1109 / lra.2018.2856927gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

延森L。,Schmerling, E., Clark, A., and Pavone, M. (2015). Fast marching tree: A fast marching sampling-based method for optimal motion planning in many dimensions.Int。j .机器人Res。gydF4y2Ba34 (7),883 - 921。doi: 10.1177 / 0278364915577958gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

霁,S。,Xu, W., Yang, M., and Yu, K. (2013). 3D convolutional neural networks for human action recognition.IEEE反式。模式分析马赫。智能。gydF4y2Ba35 (1),221 - 231。doi: 10.1109 / tpami.2012.59gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Jinwook, H。,lee,D. D., and Isler, V. (2022).神经cost-to-go函数表征高维运动规划。车间:运动规划与隐神经的几何表示gydF4y2Ba。gydF4y2BaICRAgydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Jurgenson, T。,T一个米一个r,A. (2019). “Harnessing reinforcement learning for neural motion planning,” in机器人:科学和系统gydF4y2Ba,1-13。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Karaman, S。,Frazzoli, E. (2011). Sampling-based algorithms for optimal motion planning.Int。j .机器人Res。gydF4y2Ba30 (7),846 - 894。doi: 10.1177 / 0278364911406761gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Kingma, d . P。,Adam, J. Ba. (2015). “A method for stochastic optimization,” in学习国际会议上表示gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kingma, d . P。,Welling, M. (2014). “Auto-encoding variational bayes,” in2014年国际会议上学习表示gydF4y2Ba,gydF4y2Ba加拿大班夫国家公园gydF4y2Ba,1 - 14。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kuffner, J。,l一个Valle, S. M. (2000). “RRT-connect: An efficient approach to single-query path planning,” in诉讼的IEEE机器人与自动化国际会议上gydF4y2Ba(gydF4y2Ba美国旧金山gydF4y2Ba),995 - 1001。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

拉瓦,s m (1998)。gydF4y2Ba快速扩展随机树:路径规划的一个新的工具gydF4y2Ba。gydF4y2Ba计算机科学部门,爱荷华州立大学gydF4y2Ba。tR 98 - 11。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

莫利纳D。,Kumar, K., and Srivastava, S. (2020). “Learn and link: Learning critical regions for efficient planning,” (Paris, France:在IEEE机器人与自动化国际会议上gydF4y2Ba)。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

奥托,。,Hou, S., Ahrens, A., Frieß, U., Todtermuschke, M., and Bdiwi, M. (2021). “Combining safe collaborative and high-accuracy operations in industrial robots,” in汽车生产技术的进步,理论和应用程序gydF4y2Ba。柏林:gydF4y2Ba施普林格VieweggydF4y2Ba,451 - 459。doi: 10.1007 / 978 - 3 - 662 - 62962 - 8 - _52gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

锅,J。,总体而言,S。,Manocha, D. (2012). “Fcl: A general purpose library for collision and proximity queries,” in2012年IEEE机器人与自动化国际会议上gydF4y2Ba,gydF4y2Ba圣保罗,明尼苏达州,美国gydF4y2Ba,3859 - 3866。doi: 10.1109 / ICRA.2012.6225337gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

奎格利,M。,Conley, K., Gerkey, B., Faust, J., Foote, T. B., and Leibs, J. (2009). “Ros: An open-source robot operating system,” in机器人和自动化车间2009年国际会议上开源软件gydF4y2Ba,gydF4y2Ba神户,日本gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

库雷希,a . H。Bency, m . J。,Yip, M. C. (2019). “Motion planning networks,” in2019机器人与自动化国际会议上gydF4y2Ba,gydF4y2Ba加拿大蒙特利尔gydF4y2Ba,2118 - 2124。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

库雷希,a . H。苗族,Y。,Simeonov, A., and Yip, M. C. (2020). Motion planning networks: Bridging the gap between learning-based and classical motion planners.IEEE反式。机器人gydF4y2Ba37岁的48 - 66。doi: 10.1109 / tro.2020.3006716gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Rahali, H。,Zeghlache, S., and Benyettou, L. (2022). Fault tolerant control of robot manipulators based on adaptive fuzzy type-2 backstepping in attendance of payload variation,国际智能工程和系统杂志》上gydF4y2Ba、日本、14 (4),312 - 325。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

拉特里夫N。,Zucker M。,Andrew Bagnell, J., and Srinivasa, S. (2009). “Chomp: Gradient optimization techniques for efficient motion planning,” in学报2009年IEEE机器人与自动化国际会议上gydF4y2Ba,gydF4y2Ba神户,日本gydF4y2Ba,489 - 494。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

舒尔曼,J。段,Y。何,J。,lee,A., Awwal, I., Bradlow, H., et al. (2014). Motion planning with sequential convex optimization and convex collision checking.Int。j .机器人Res。gydF4y2Ba33 (9),1251 - 1270。doi: 10.1177 / 0278364914528132gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

舒尔曼,J。何,J。,lee,A. X., Awwal, I., Bradlow, H., and Abbeel, P. (2013). Finding locally optimal, collision-free trajectories with sequential convex optimization.机器人。科学。系统。gydF4y2Ba9 (1),1 - 10。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

沙,N。,Srivastava, S. (2022). “Using deep learning to bootstrap abstractions for hierarchical robot planning,” inProc. 21国际会议上的自治代理和多主体系统gydF4y2Ba(gydF4y2BaAAMASgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

棕褐色,S。,Yang, J., and Ding, H. (2023). A prediction and compensation method of robot tracking error considering pose-dependent load decomposition.机器人电脑一体机Manuf。gydF4y2Ba80年,102476年。doi: 10.1016 / j.rcim.2022.102476gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

可视化组件(2021)。gydF4y2Ba可视化组件gydF4y2Ba。gydF4y2Ba埃斯波,芬兰gydF4y2Ba。4.3。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Zucker M。,拉特里夫N。,Dragan, A. D., Pivtoraiko, M., Klingensmith, M., Dellin, C. M., et al. (2013). Chomp: Covariant Hamiltonian optimization for motion planning.Int。j .机器人Res。gydF4y2Ba32 (9),1164 - 1193。doi: 10.1177 / 0278364913488805gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

关键词:gydF4y2Ba机器人运动规划、数据驱动的机器人学习、神经网络、工业机器人,机器人仿真gydF4y2Ba

引用:gydF4y2Ba侯,Bdiwi M,拉希德,Krusche Ihlenfeldt年代(2023)工业机器人运动规划的数据驱动的方法由高级运动控制命令。gydF4y2Ba前面。机器人。人工智能gydF4y2Ba9:1030668。doi: 10.3389 / frobt.2022.1030668gydF4y2Ba

收到:gydF4y2Ba2022年8月29日;gydF4y2Ba接受:gydF4y2Ba2022年12月27日;gydF4y2Ba
发表:gydF4y2Ba2023年1月12日。gydF4y2Ba

编辑:gydF4y2Ba

Jose Luis Sanchez-LopezgydF4y2Ba卢森堡大学卢森堡gydF4y2Ba

审核:gydF4y2Ba

Omid ElhakigydF4y2Ba伊朗伊斯兰自由Najafabad大学gydF4y2Ba
Hongchao霁gydF4y2Ba华北科技大学,中国gydF4y2Ba

*通信:gydF4y2BaShuxiao侯,gydF4y2Bashuxiao.hou@iwu.fraunhofer.degydF4y2Ba

原始研究的文章gydF4y2Ba

工业机器人运动规划的数据驱动的方法由高级运动控制命令gydF4y2Ba

1介绍gydF4y2Ba

1.1规划和部署机器人运动与高级运动命令gydF4y2Ba

1.2规划和部署机器人运动与低级运动命令gydF4y2Ba

1.3的贡献gydF4y2Ba

2相关的工作gydF4y2Ba

2.1运动规划方法gydF4y2Ba

2.1.1文中针对运动规划方法gydF4y2Ba

2.1.2 Sampling-based启发式搜索方法gydF4y2Ba

2.1.2.1学习采样策略gydF4y2Ba

2.2.2.2端到端学习底层控制策略gydF4y2Ba

2.2部署生成的机器人系统的轨迹gydF4y2Ba

3问题定义gydF4y2Ba

3.1主要问题gydF4y2Ba

3.2子问题1:学习当地的可行解空间的运动规划问题gydF4y2Ba

3.3子问题2:合适的表示的动态环境gydF4y2Ba

3.4子问题3:学习机器人动力学gydF4y2Ba fgydF4y2Ba χgydF4y2Ba 由高级运动控制命令gydF4y2Ba

4种方法gydF4y2Ba

4.1动态环境表示网络子问题2gydF4y2Ba

4.2高级控制策略网络子问题1gydF4y2Ba

4.3高层控制机器人动力学网络子问题3gydF4y2Ba

4.4机器人运动规划,学会了可行解空间gydF4y2Ba

4.1.1数据收集gydF4y2Ba

4.4.4.1环境数据gydF4y2Ba

4.4.4.2机器人项目gydF4y2Ba

4.4.4.3现实的机器人运动gydF4y2Ba

10/24/11模型训练gydF4y2Ba

离线机器人运动规划gydF4y2Ba

4.4.4部署机器人运动机器人系统gydF4y2Ba

5实验的设计和实现gydF4y2Ba

5.1实验设置gydF4y2Ba

5.1.1 SCARA机器人处理应用程序gydF4y2Ba

5.1.2机器管理应用程序gydF4y2Ba

5.2实现gydF4y2Ba

5.2.1网络动态环境中表示gydF4y2Ba

5.2.2高级控制政策网络gydF4y2Ba

5.2.3高层控制机器人动力学网络gydF4y2Ba

6的结果和讨论gydF4y2Ba

6.1有效性的轨迹gydF4y2Ba

但是SCARA处理应用程序gydF4y2Ba

6.1.2机器管理应用程序gydF4y2Ba

6.2执行时间的轨迹gydF4y2Ba

6.3计算时间gydF4y2Ba

7结论gydF4y2Ba

数据可用性声明gydF4y2Ba

作者的贡献gydF4y2Ba

的利益冲突gydF4y2Ba

出版商的注意gydF4y2Ba

引用gydF4y2Ba

本文是研究课题的一部分gydF4y2Ba

人也看了gydF4y2Ba

3.4子问题3:学习机器人动力学gydF4y2Ba ${fgydF4y2Ba}_{χgydF4y2Ba}$ 由高级运动控制命令gydF4y2Ba