原始研究的文章

前面。机器人。AI, 07年2022年12月
秒。空间机器人
卷9 - 2022 | https://doi.org/10.3389/frobt.2022.1027918

容错和鲁棒控制器使用模型预测路径积分控制自由飞行空间机器人

Mehran Raisi ¹

Amirhossein Noohian ²

军刀Fallah ¹*

¹连接和自动车辆实验室,机械工程科学学院,萨里大学英国吉尔福德
²机械工程系,伊朗德黑兰沙里夫理工大学的

使用机械手在空间任务已成为流行,作为他们的应用程序可以扩展到各种航天任务如在轨维修,装配,和残骸清除。由于空间可达性的限制,这样的机器人必须在空间自主完成任务和严重的操作条件下如发生故障或不确定性。机器人和机械手用于太空任务,本文提供了一个独特的,鲁棒控制技术,基于模型预测的路径积分控制(MPPI)。该算法,名叫Planner-Estimator MPPI (PE-MPPI),包括一个规划师和一个估计量。计划控制系统,而估计修改系统参数的参数不确定性。提出了控制器的性能研究参数不确定性和系统组件失败pre-capture阶段的废墟清理任务。仿真结果证实对香草MPPI PE-MPPI的性能优越。

1介绍

的应用空间机器人、机械手连接到一个自由飞行基地,是越来越受欢迎,因为它可以扩展到不同的太空任务(图1)(nano帕帕多普洛斯,2017)。许多太空任务包括多个任务,如检查,加油,组装和建设,消除空间碎片。目前,这些操作是由宇航员舱外活动(EVA)。然而,此类操作风险的本质可以威胁到宇航员的生活和需要精心准备。一个合适的解决方案是由空间机械手执行这样的操作帕帕多普洛斯et al ., 2021)。操纵小使得这些适合移动的主要卫星更快的加速度。

图1

图1。一个空间机械臂系统的示意图nano帕帕多普洛斯,2017)。

等小空间机器人未来的太空残骸清除轨道机械手(FSDROM)可以扮演了一个重要的角色在未来的残骸清除任务(Shyam et al ., 2021)。2019年,欧洲航天局(ESA)称,超过8000吨的太空碎片在地球轨道,这一数字仍在不断增加。大量的卫星和宇航员太空碎片会导致风险(Chatterjee 2014)。因此,清除空间碎片是成为太空任务的关注。清除太空垃圾的方法之一是通过直接捕捉的对象。直接捕获方法分为刚性和柔性捕获(赵et al ., 2020)。几种方法灵活的直接获取,如网,鱼叉,和触角,提出了(杆et al ., 2014;张黄,2016;福肖et al ., 2017)。灵活的捕获机制减少风险空间机器人和目标之间的碰撞碎片,减少失败的风险,捕捉,可以生成更多的碎片(Biesbroek et al ., 2017)。另一方面,严格的捕获机制是很有前途的方法控制未知的对象,特别是在detumbling阶段,因为他们有更多的控制对象。此外,他们可以使用可用的工具来完成维修任务,而灵活的机制需要额外的设备。

应用空间机器人刚性碎片移除任务具有挑战性的,因为太空碎片主要非合作移动物体追踪他们不提供任何信息。几个任务在轨刚性捕获使用空间机械手展示了他们潜在的未来的太空任务。例如,第七工程试验卫星“KIKU-7”(ETS-VII)日本宇宙航空研究开发机构(JAXA) 1997年在先锋在展示空间机器人能力使用驱逐舰和目标卫星(吉田,2003)。2016年,Aolong-1 (ADRV)是由中国运载火箭技术研究院(CALT)调查清除空间碎片抓在一个实验对象,将它寄回再入轨迹。卫星用机械手臂抓住空间碎片,扔回大气层。

空间机器人的操作和性能捕捉太空碎片依靠他们的控制系统。然而,也有一些问题与空间机器人控制系统的设计由于以下几点:

目前,一些卫星的平均寿命大约是14年(Tomaszewska et al ., 2019),和维护卫星是昂贵的。这意味着应当适应机器人控制律忍受系统参数的变化在其使命。

人工干预(遥控机器人)的太空任务是很困难的。例如,在Biesbroek et al。(2017)作者声称,卫星碎片环境预计旋转5度/秒,并获得如此巨大的对象(约8吨)超出了人类的表现,需要专业知识。在这种情况下,最好使用高性能的控制器来处理空间机器人。因此,自主性在太空任务是更喜欢。

空间机械手是在直接接触不明旋转的碎片,和损坏驱动器和机器人的结构是不可避免的。因此,任何控制足够强大的法律应当保持其性能在执行机构故障或故障的可能性。这个事件更可能的情况下直接捕获方法捕获的对象会导致大对航天器的影响(Seweryn et al ., 2022)。

准确的识别系统参数在刚性捕获任务是不可避免的,许多参数,如惯性,摩擦,几何,和态度必须确定,确保控制器的性能(Aghili 2020)。

满足这样的需求不是一个微不足道的任务通过古典控制方法由于其限制在处理系统建模不确定性和联系。最近,模型预测控制(MPC)机器人控制已经收到了大量来自学术界和工业界的关注由于其好处,如处理约束的权力(扫除et al ., 2020)。本文提出了一种新颖的基于模型的控制器基于模型预测的路径积分控制(MPPI)接近临界操作条件下垃圾网站。MPPI sampling-based算法,应用迭代路径积分控制更新法在模型预测控制环境(威廉姆斯et al ., 2016)。MPPI控制高度非线性动态系统显示出强大的性能。然而,它的性能对系统参数和动态不确定性由于其依赖系统的动态模型。为了解决这个限制,在本文中,我们引入一个Planner-Estimator MPPI (PE-MPPI)框架增加控制器的鲁棒性对模型不确定性和参数的变化。这个框架由两部分组成:规划师MPPI,自由飞行空间机械臂控制,估计MPPI,机载模型参数估计。在这方面,当车载模型无法跟踪真正的系统,估计MPPI调整机载模型参数,以减少实际之间的差异和车载模型的反应。此外,纸浆包帮助MPPI改变其车载模式对执行机构故障或故障警报而不需要重新设计控制器,这对经典控制系统是一项艰巨的任务。

在目前的研究中,我们考虑一些假设来开发我们的方法。首先,PE-MPPI上下文中的所有不确定性应该是结构性的,和非结构化不确定性算法无法有效处理。其次,我们不处理直接控制努力的饱和问题。相反,通过定义一个操作我们可以间接惩罚成本控制工作要尽可能小。

本文结构如下:第二部分描述了当前最先进的控制系统和空间机器人在太空任务的技术。第三部分解释了空间机器人的运动学和动力学方程。在第四节,MPPI算法描述。扩展算法,本文的主要贡献,然后解释部分诉仿真环境中,机器人操作场景,和第六章给出了仿真结果。最后,第七部分中概述的结论和未来的工作。

2相关的工作

空间机械臂的参数是合理的测量和应用之前的控制器设计发射到太空。然而,一些参数,比如关节的阻尼系数和刚度可以随着时间而改变。因此,在轨识别需要保证空间机器人的性能(赵et al ., 2020)。的研究人员吉田(2003)开发了一种惯性参数识别方法基于动量守恒和重力梯度力矩的影响。他们验证方法通过比较结果与数据从ETS-VII获得日本空间机器人。此外,研究人员在Christidi-Loumpasefski et al。(2017)提出敏捷适应法律来确定所有参数的自由漂浮空间机器人根据角动量守恒没有任何数据从关节加速度和扭矩。

设计一个运动设计框架空间机械手进行了广泛的调查,考虑动态耦合和奇异性,以及空间机器人的物理限制。例如,研究人员试图解决轨迹规划问题通过最小化代价函数,满足特定条件,例如,功耗(Seweryn Banaszkiewicz, 2008;Rybus et al ., 2016)。提出了一个有效的运动规划策略的6自由度空间机器人基于粒子群优化(PSO)优化基地停泊位置作为optimizable参数(张、刘,2018年)。μ为多个移动等人提出了一个统一的建模框架计算效率的障碍,以及无碰撞轨迹规划方法冗余空间机械臂(μet al ., 2017)。

最近,强化学习已经从机器人研究中引起相当大的关注由于其强度控制非线性动态系统。强化学习技术可以分为模范自由和基于模型的技术。模范自由技术训练机器人代理通过与环境的交互。模范自由强化学习是一种强大的技术在控制复杂的动态系统,因为他们不使用系统的模型。然而,它受到样本效率和长时间的培训。Broida和利纳雷斯(2019)创建了一个基于近端政策优化控制策略(PPO)将一个卫星送入一个对接的位置与另一个相对轨道坐标系。在吴et al。(2020)提出了轨迹规划方法基于深度确定的策略梯度(DDPG)漂浮基空间机器人的双臂。该算法能够移动和固定目标的方法。有一些挑战关于应用模范自由强化学习算法在现实世界中,如缓慢的学习速率和培训成本的在现实世界中,这使得转移学习一个合适的解决方案。相比之下,基于模型的强化学习系统的使用模型,使学习过程更快更有效(摩根et al ., 2021)。

模型预测控制(MPC)是一种先进的控制方法,类似于基于模型的强化学习,使用系统模型来预测系统未来的行为。MPC解决在线优化算法寻找最优控制行动,推动预测输出参考。其中一个最先进的模型预测控制技术是模型预测路径积分控制(MPPI) (威廉姆斯et al ., 2016)。sampling-based和derivative-free使MPPI凸和非凸约束的理想人选,基于在梯度模型预测控制器遭受显著(威廉姆斯et al ., 2017 b;迪克西特et al ., 2019)。此外,MPPI的表现大大取决于使用车载轨迹采样的数量模型,并嵌入计算可以受益于最新进展在图形处理单元(gpu)取得更好的实时性能。这意味着一个可以调整MPPI性能在实际应用程序中通过选择合适的处理器(阿鲁达et al ., 2017;金正日et al ., 2022)。MPPI被用来控制空中和地面机器人(威廉姆斯et al ., 2016;Pravitra et al ., 2020)。提出了不同的算法来提高MPPI性能。例如,作者(Lowrey et al ., 2018)提出MPPI结合从模范自由价值函数的概念,强化学习提高MPPI勘探阶段。在一些作品,研究人员致力于使MPPI健壮的干扰。在威廉姆斯et al。(2018),提出了结合Tube-MPC和MPPI Tube-MPPI。结果是一个健壮的算法管理成本函数不连续和稀疏的梯度信息。在甘地et al。(2021),甘地等人开发健壮的MPPI (RMPPI)和调查其越野性能导航。该算法优于MPPI和Tube-MPPI扰动的敏捷性和鲁棒性。除了不健壮的干扰,传统MPPI性能敏感的车载模式,一个真实系统的近似模型。结构不确定性致动器规格和缺乏环境信息像碎片惯性可以减少MPPI的性能。在Pravitra et al。(2020),作者结合MPPI控制L1-adaptive控制,导致multirotor控制器是健壮的系统动力学的变化。L1-adaptive控制robustified架构;因此,整个系统的行为类似于MPPI标称系统。在本文中,我们提出Planner-Estimator MPPI (PE-MPPI),小说Planner-Estimator框架基于MPPI算法,可以处理模型的不确定性信号通过最小化准则的差异。当车载模型无法跟踪真正的系统和合成误差大于一个阈值,PE-MPPI列车模型参数调整。拟议的框架V节将进一步讨论。

三个先决条件

3.1空间机器人的运动学

工业机械手的运动学只取决于关节空间的参数,而空间机器人的运动学比陆地更复杂的机器人。空间机器人的运动学基础上确定基地和关节的位置和姿态参数。

根据图2,空间机器人可以表示成一组n + 1刚性关节链接与n, n + 6个自由度。此外,Σ_C是惯性坐标系,Σ_B基本坐标系附用它的起源在质心固定在底座上的基础。因此,末端执行器的位置可以得到如下:

p_{e} = r_{0} + l_{0} + \sum_{我 = 1}^{n} l_{我} (1)

地点:

图2

图2。空间机器人的配置和关节的坐标。

p_e:末端执行器的位置矢量在坐标系统Σ_C

r₀:重心的位置向量Σ基地的坐标系统_C

l₀:连接向量从基地到第一个关节

l_我:联合我的连接向量联合i + 1。

通过微分运动方程对时间,末端执行器的速度之间的关系和关节的速度可以得到如下:

{\dot{x}}_{e} = J_{米} \dot{ϕ} + J_{b} {\dot{x}}_{b} (2)

地点:

${\dot{x}}_{e}$ :线性/角速度末端执行器的惯性坐标系。

$\dot{ϕ}$ :关节的角速度。

${\dot{x}}_{b}$ :线性/角速度的基础基本坐标系。

J_米:机械手的雅可比矩阵。

J_b:雅可比矩阵的基础。

3.2空间机器人的动力学

空间机器人的动力学比陆地更复杂的机器人由于机械臂之间的动力学耦合效应及其基础。例如,空间机器人基础反应基于动量守恒定理如果扭矩τ_我应用于我th联合(黄et al ., 2006)。因此,质心相对于整个结构Σ_C坐标系统不会改变,但是Σ_B将坐标系统。确定的动态空间机器人是必要的,以确保成功执行的任务。自由飞行空间机器人的运动方程与n链接如下:

[\begin{matrix} H_{b} & H_{b 米} \\ {H_{b 米}}^{T} & H_{米} \end{matrix}] [\begin{matrix} {\ddot{x}}_{b} \\ \ddot{ϕ} \end{matrix}] + [\begin{matrix} c_{b} \\ c_{米} \end{matrix}] = [\begin{matrix} F_{b} \\ τ \end{matrix}] + [\begin{matrix} J_{b}^{T} \\ J_{米}^{T} \end{matrix}] F_{h} (3)

地点:

H_b:惯性矩阵的基础。

H_米:机械臂的惯性矩阵。

H_bm:基础之间的耦合惯性矩阵和机械臂

c_b:数值非线性项的基础

c_米:机械臂的数值非线性项。

F_b:重心上的力和力矩的基础。

F_h:末端执行器上的力和力矩

τ:机械臂的关节转矩。

在没有外部力量应用于末端执行器(F_h= 0),推进器(或反应轮子)不适用力飞船基地(F_b= 0),上述动力学方程将被简化为以下形式:

H_{b} {\dot{x}}_{b} + H_{b 米} \dot{ϕ} = [\begin{matrix} P \\ l \end{matrix}] = c o n 年代 t 。 (4)

在哪里p和l是气势磅礴,线速度和角速度恒定值。自由漂浮空间机器人分为两个亚型初始动量为零或没有零(nano帕帕多普洛斯,2011;Basmadji et al ., 2020)。在这项研究中,外面的垃圾网站的飞船机器人。因此,有必要使用模型的自由飞行空间机器人推进器和反应轮子在太空中遍历。

4模型预测路径积分控制

模型预测的路径积分控制(MPPI)是一种重要性抽样方法。其derivative-free行为使其成为一个优秀的选择最优控制问题的非线性动力学和非凸的成本函数。MPPI的基本概念是样本轨迹的时间范围T从动力系统。每一个轨迹τ= {x₀,u₀,x₁,u₁、…x_T,u_T然后根据成本函数评估}。因此,最优轨迹计算基于其重要性超过所有轨迹。确定算法解决方案,增加轨迹的数量是必要的。幸运的是,这可以快速通过利用抽样的平行的性质和使用图形处理器(GPU)单位(穆罕默德et al ., 2020)。

考虑一个离散动力系统如下:

x_{t + 1} = f (x_{t}, u_{t} + δ u_{t}) (5)

在哪里x_t状态向量,u_t是控制输入向量,δu_t从零均值高斯分布随机向量样本吗N(0,Σ_u)在时间步t。如前所述,每个轨迹可以评估一个成本函数如下:

年代 (τ) = ϕ (x_{T}) + \sum_{t = 0}^{T} 问 (x_{t}, u_{t}) (6)

在哪里ϕ(x_T),问(x_t,u_t)分别是终端和运营成本。MPPI旨在找到最优控制输入轨迹u* = (u₀,u₁、…u_T),它最小化期望所有生成的轨迹如下:

J = {最小值}_{u} (E [年代 (τ)]) (7)

一直在讨论解决这个问题威廉姆斯et al。(2017)。作者使用了Feynman-Kac引理将这个问题转化为一个随机过程。随之而来的更新法律控制输入如下:

u_{t} \leftarrow u_{t} + \frac{\sum_{k = 1}^{K} 经验值 ((\frac{- 1}{λ}) [{年代}_{k} (τ) - 最小值 (年代)] δ u_{t, k})}{\sum_{k = 1}^{K} 经验值 ((\frac{- 1}{λ}) [{年代}_{k} (τ) - 最小值 (年代)])} (8)

在哪里K的轨迹,λ被称为逆温度。描述的详细MPPI算法算法1。

算法1

算法1。MPPI (穆罕默德et al ., 2020)。

算法2

算法2。Planner-Estimator MPPI。

5 Planner-estimator MPPI

本节提出了一种新颖的Planner-Estimator MPPI (PE-MPPI)战略控制空间机器人在轨残骸清除任务,从而实现控制器的设计需求。首先,控制器结构,最后,该算法将解释道。

尽管许多研究表明MPPI的性能在不同的场景中,其性能随模型精度。该控制器适用于太空探索,我们建议PE-MPPI robustify MPPI的性能与结构的不确定性。PE-MPPI由两部分组成:规划师MPPI和估计MPPI。所示图3,规划师MPPI选择基于车载模型最优控制行动 $\tilde{f} ({\tilde{x}}_{t}, u_{t}, \tilde{θ})$ 。规划师的结构MPPI MPPI是一样的。它只计算基于车载系统的控制输入模型。另一方面,估计MPPI试图估计模型参数和调整机器人的车载模型规范的基础上一个错误的信号。换句话说,当车载模型不匹配的动态行为空间机械臂,估计MPPI估计模型参数,并相应地更新模型。评估的核心理念是样品很多参数 ${\tilde{θ}}^{k}$ 从高斯分布和评估如下:

{年代}_{e} ({\tilde{θ}}_{k}) = \sum_{t = 0}^{T} 问_{e} ({\tilde{θ}}_{k}) (9)

在哪里 $问_{e} ({\tilde{θ}}_{k})$ 的运行成本是轨迹生成的参数 ${\tilde{θ}}^{k}$ 。因此,更新法律制定的参数如下:

{\tilde{Θ}}_{t} = \frac{\sum_{k = 1}^{K} 经验值 ((\frac{- 1}{λ}) [{年代}_{e, k} (τ) - 最小值 ({年代}_{e})] {\tilde{θ}}_{k})}{\sum_{k = 1}^{K} 经验值 ((\frac{- 1}{λ}) [{年代}_{e, k} (τ) - 最小值 ({年代}_{e})])} (10)

图3

图3。的示意图planner-estimator MPPI

说估计是很重要的模型并不一定与现实系统,但它保证足够的更新后他们会有相同的反应。

算法2详细解释了PE-MPPI。基于参数化模型 $\tilde{f} ({\tilde{x}}_{t}, u_{t}, \tilde{θ})$ 与参数 $\tilde{θ}$ ,规划师MPPI $米_{p} (\tilde{f} (。, 。, \tilde{θ}))$ 输出算法控制工作u_t在每个时间步(代码行:7和8)。每个响应的空间机器人x_t和随后的控制输入u_t是聚集在一个回放缓冲B(x_t,u_t)(代码行:9)。空间机器人的传感器测量响应的系统x_{t+ 1},而船上的反应模型 ${\tilde{x}}_{t + 1}$ 由车载计算模型(代码行:10和11)。如果信号的标准误差 $‖x_{t + 1} - {\tilde{x}}_{t + 1}‖$ 大于一个预定义的阈值,估计MPPI更新的模型 $\tilde{f} ({\tilde{x}}_{t}, u_{t}, \tilde{θ})$ (代码行:12)。寻找最优参数 $\tilde{θ}$ ,许多参数 ${\tilde{θ}}^{k}$ 从高斯分布采样,每个轨迹计算的分数使用运行成本 $问_{e} ({\tilde{θ}}^{k}) = ‖x_{t + 1} - {\tilde{x}}_{t + 1}‖$ (代码行:13-20)。然后,更新的参数法计算,和最优参数 ${\tilde{θ}}_{t}$ 模型的计算使用更新法律(代码行:研讨会)。最后,机载模型更新(代码行:27)。

6模拟

本节探讨在MuJoCo PE-MPPI仿真的性能(托多罗夫et al ., 2012)环境空间机器人(图4)。分析性能,我们考虑四个不同的场景,从简单到复杂。第一个场景(SEN1)代表没有参数的正常操作条件改变或执行机构故障。第二个场景(SEN2)代表事件的系统参数如有更改,恕,而第三场景(SEN3)代表事件致动器失败病例。第四场景代表了最糟糕的操作条件参数变化和执行机构故障同时发生。在每个实验中,空间机器人遍历一个计划y设在轨道而其机械手吩咐方法残骸区。要执行这个任务,规划师MPPI控制六个推进器的空间基地和一个7自由度机器人折叠,13-dimensional控制输出空间。

图4

图4。其余的配置空间机器人关节的坐标系统。

6.1空间机器人的一般规范

空间机器人由一个基座和机械手连接到基地。在非营运情况下,机械手在静止位置,折叠的基础(图4)。然而,在这种情况下,碎片位于远离主卫星的结构、任务启动,删除或碎片的帮助下机械手。7自由度机械臂的长度然后展开允许空间机器人到达远碎片区。冗余自由度保证机器人的性能甚至在致动器失败条件。

机械手的Denavit-Hartenberg参数和空间机器人的惯性特性用于仿真给出了表1,2,分别。

表1

表1。空间机器人的DH参数。

表2

表2。空间机器人的惯性特性。

6.2操作场景空间的机器人

6.2.1正常运行

在正常运作,没有执行机构故障或系统发生退化。因此,车载模型准确地跟踪真实系统的响应。在这个完美的情况下,飞船吩咐遍历y从初始位置设在而操纵方法x_最初的= (−1.2−1.2,0)^T到所需的目标垃圾站点x_目标= [−2 8 0]^T。任务要求是我)达到垃圾网站,(二)在轨道机动堆栈在y轴,和iii)来减少控制工作。由于没有参数的不确定性,只有规划师MPPI使用。为了满足任务的要求,成本函数的规划师MPPI设计如下:

问 (x_{t}, u_{t}) = 4 ‖x_{目标} - x_{结束−效应}‖ + 0.1 ‖u‖ + 5 ‖x_{基地} - x_{轨道}‖ (11)

地点:

x_目标:目标垃圾站点的位置

x_{结束−效应}:机械手末端执行器的位置

x_基地:基地的位置

x_轨道:轨道的位置

u:控制的努力。Thepo年代我t我onofthe end-effector relative to the inertial coordinate and the position of the space robot base are illustrated in图5。60年代后,末端执行器方法目标站点和维护自己的立场。这个任务的稳态误差小于15厘米,这是可以接受的。此外,空间机器人基地位置成功跟踪轨道位置,即y设在。

图5

图5。末端执行器的位置到达目标位置60年代后正常运行场景(一)。空间机器人沿着y-orbit基本立场是遍历(B)。

6.2.2系统识别

空间机器人关节的阻尼系数是假定不同于车载在第二个场景中模型参数。模型与实际系统之间的差异会导致贫穷接近行为。因此,采用一种策略来识别系统的实时参数是至关重要的任务。因此,规划师MPPI和估计MPPI都使用。自的目标任务是一样的正常运行情况下,规划师MPPI的成本函数是相同的。另一方面,估计量的运行成本函数MPPI定义如下:

问 ({\tilde{θ}}_{k}) = 2 ‖x_{t + 1} - {\tilde{x}}_{t + 1}‖ (12)

车载的阻尼系数模型被设置 $5000年 \frac{N 年代}{米}$ 在模拟的开始,而真正的系统的阻尼系数车载模型的阻尼系数的十分之一。比较的性能PE-MPPI和香草MPPI应用到模型中说明了参数不确定性图6。此外,描绘了阻尼系数的收敛性图6。PE-MPPI可以达到目标位置在70年代后系统识别任务。相比之下,香草MPPI的性能恶化由于缺少一种机制来调整模型的参数。所有参数收敛到真实的系统参数在20年代,虽然是一个重大的错误估计第一个和最后一个参数。然而,这些错误对系统性能几乎没有影响,末端执行器可以达到70年代后的垃圾网站。它可以得出的结论是,估计的参数 $\tilde{θ}$ 增加了系统的稳定性,降低了稳态误差导致更好的性能。此外,如所示图6 bPE-MPPI和香草MPPI,空间机器人的基本立场是遍历y设在。由于参数不确定性是联合相关参数,参数不确定性主要影响末端执行器的位置而不是基础位置。

图6

图6。系统识别场景;对比PE-MPPI和香草MPPI末端执行器的位置(一个;上)。车载的收敛的参数模型真实系统(一个;底部)。对比PE-MPPI和香草MPPI空间机器人的基础地位(B)。

6.2.3传动装置故障

由于许多失败的太空任务的来源,如碎片碰撞或系统退化,执行机构故障可能发生在机器人的寿命。系统动力学的主要挑战是突然会改变,导致不稳定和表现不佳。在这种危急,失败是很好理解的来源;因此不需要参数估计和估计MPPI没有使用。然而,采用一个健壮的和自适应的控制策略,可以实时改变,必须保证系统的稳定性与最低人工干预。规划师MPPI的成本是一样的前两个场景。

在第三个场景中,空间机器人将失去它的一个自由度,因此,该致动器不能控制了(第二致动器是选择被锁定)。PE-MPPI的性能相比,香草MPPI车载模式不改变执行机构故障。所示图7车载模式,缺乏更新机制香草MPPI导致表现不佳与PE-MPPI相比,它可以方便地更新模型,并成功地达到目标位置,60年代后保持在这个位置。此外,上的基本立场是遍历y设在。类似于系统识别的场景,因为执行机构故障主要是关节空间相关,它影响末端执行器的位置超过基本位置。

图7

图7。对比PE-MPPI和香草MPPI驱动器失败场景的末端执行器的位置(一)和空间机器人基础地位(B)。

6.2.4系统识别和执行机构故障

在过去最糟糕的情况下,执行器故障和系统参数变化同时发生。在这种情况下,估计部分将帮助规划师来控制空间机器人并达到所需的位置而失败的执行机构(第三选择执行机构)是锁着的。PE-MPPI的成本函数是一样的系统识别的场景。类似于第二个场景中,所有阻尼系数被初始化 $5000年 \frac{N 年代}{米}$ 而真正的十分之一的车载系统参数模型。

所示图820年代后,所有参数融合真正的系统参数,而有显著误差估计第一个和最后一个参数。估计参数 $\tilde{θ}$ 显示更多的波动对系统识别场景相比,表明事件的组合可以减少控制器的性能评估参数和稳态误差。此外,PE-MMPI需要更多的时间来达到目标位置(在70年代),虽然香草MPPI不能完成任务(图8)。此外,基地位置上成功遍历y设在(图8 b)。图9显示了边界的控制努力PE-MPPI和香草MPPI系统识别和执行器故障的场景。预计,比香草MPPI PE-MPPI需要更多的控制努力,因为它管理参数不确定性和致动器失败。

图8

图8。系统识别和驱动器失败场景;对比PE-MPPI和香草MPPI末端执行器的位置(一个;上)。车载的参数模型的收敛到真实的系统(一个;底部)对比PE-MPPI和香草MPPI空间机器人的基础地位(B)。

图9

图9。空间机器人控制系统中边界识别和执行机构故障场景。

7结论

本研究提出了一个新颖的Planner-Estimator MPPI (PE-MPPI)算法来控制空间机器人残骸清除pre-capture阶段任务系统故障和结构参数的变化。四个场景测试控制器的性能被认为是:正常运行,系统识别、执行机构故障,并结合系统识别和执行机构故障。在每个场景中,PE-MPPI是香草MPPI相比的性能。结果证明了该算法的优越性在香草MPPI,特别是在第四场景,事件的组合会导致糟糕的性能。结果表明:PE-MPPI可以保持其性能在不同的场景中,与正常操作退化相比,可以忽略。此外,估计量保证车载模式跟踪真正的系统,虽然有些错误估计参数(特别是第一个和最后一个致动器的阻尼系数)。值得一提的是,阻尼系数的收敛自己的真实值是没有保证的,但是不同的标准信号的可能性也会被减到最小。

数据可用性声明

最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。

作者的贡献

先生和一个项目的概念和实现。先生,一个科幻小说写了初稿的手稿。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

Aghili, f (2020)。最优轨迹和机器人控制detumbling非合作卫星。j . Guid。续,直流发电机。43岁,981 - 988。g004758 doi: 10.2514/1.

CrossRef全文|谷歌学术搜索

阿鲁达,E。,米athew, M. J., Kopicki, M., Mistry, M., Azad, M., and Wyatt, J. L. (2017). “Uncertainty averse pushing with model predictive path integral control,” in2017 IEEE-RAS 17人形机器人技术国际会议(机器人)(IEEE),497 - 502。

CrossRef全文|谷歌学术搜索

Basmadji, f . L。Seweryn, K。,和年代asiadek, J. Z. (2020). Space robot motion planning in the presence of nonconserved linear and angular momenta.多体系统。直流发电机。50岁,71 - 96。doi: 10.1007 / s11044 - 020 - 09753 - x

CrossRef全文|谷歌学术搜索

Biesbroek, R。,在nocent我,l。Wolahan,。,和年代errano, S. M. (2017). “e. deorbit-esa’s active debris removal mission,” in第七届欧洲会议程序空间碎片(ESA空间碎片办公室)。

谷歌学术搜索

杆,C。,Ferraris, S., Rembala, R., Cacciatore, F., Tomassini, A., and Biesbroek, R. (2014). “E. Deorbit: Feasibility study for an active debris removal,” in3日欧洲车间空间碎片建模和补救。法国巴黎:中心国家d作为,

谷歌学术搜索

Broida, J。,和l我nares, R. (2019). “Spacecraft rendezvous guidance in cluttered environments via reinforcement learning,” in29日AAS张仁/太空飞行力学会议(美国航天学会Ka 'anapali,夏威夷1 - 15)。

谷歌学术搜索

Chatterjee, j . (2014)。“未经授权的相关法律问题空间碎片修复”第65届国际宇航大会,1 - 20。

谷歌学术搜索

Christidi-Loumpasefski O.-O。nano, K。,和帕帕多普洛斯,E。(2017)。“在空间机械臂系统的参数估计使用角动量守恒,”2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”(IEEE),5453年。8。

CrossRef全文|谷歌学术搜索

迪克西特,S。,米ontanaro, U., Dianati, M., Oxtoby, D., Mizutani, T., Mouzakitis, A., et al. (2019). Trajectory planning for autonomous high-speed overtaking in structured environments using robust mpc.IEEE反式。智能。透明。系统。21日,2310 - 2323。doi: 10.1109 / tits.2019.2916354

CrossRef全文|谷歌学术搜索

福肖,J。,Aglietti, G., Salmon, T., Retat, I., Burgess, C., Chabot, T., et al. (2017). The removedebris adr mission: Preparing for an international space station launch. In7日欧洲会议空间碎片。

谷歌学术搜索

甘地,m . S。,Vlahov B。吉布森,J。,威廉姆斯,G。,和Theodorou, E. A. (2021). Robust model predictive path integral control: Analysis and performance guarantees.IEEE机器人。奥特曼。列托人。6,1423 - 1430。doi: 10.1109 / lra.2021.3057563

CrossRef全文|谷歌学术搜索

扫除,L。,Wabersich, K. P., Menner, M., and Zeilinger, M. N. (2020). Learning-based model predictive control: Toward safe learning in control.为基础。启控制机器人。Auton。系统。3,269 - 296。doi: 10.1146 / annurev -控制- 090419 - 075625

CrossRef全文|谷歌学术搜索

黄,P。徐,Y。,和l我ang, B. (2006). Tracking trajectory planning of space manipulator for capturing operation.Int。j .放置机器人系统。3、31。doi: 10.5772/5735

CrossRef全文|谷歌学术搜索

金,T。,Park, G., Kwak, K., Bae, J., and Lee, W. (2022). Smooth model predictive path integral control without smoothing.IEEE机器人。奥特曼。列托人。7,10406 - 10413。doi: 10.1109 / lra.2022.3192800

CrossRef全文|谷歌学术搜索

劳里说,K。,Rajeswaran, A., Kakade, S., Todorov, E., and Mordatch, I. (2018). “Plan online, learn offline: Efficient learning and exploration via model-based control,” in学习国际会议上表示。

谷歌学术搜索

默罕默德,即S。Allibert, G。,和米artinet, P. (2020). “Model predictive path integral control framework for partially observable navigation: A quadrotor case study,” in2020年16日国际会议控制、自动化、机器人和视觉(ICARCV) (IEEE)。

CrossRef全文|谷歌学术搜索

摩根,a。Nandha D。,Chalvatzaki, G., D’Eramo, C., Dollar, A. M., and Peters, J. (2021). “Model predictive actor-critic: Accelerating robot skill acquisition with deep reinforcement learning,” in2021年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,6672年。

CrossRef全文|谷歌学术搜索

亩,Z。,Xu, W., and Liang, B. (2017). Avoidance of multiple moving obstacles during active debris removal using a redundant space manipulator.Int。j .控制奥特曼。系统。15日,815 - 826。doi: 10.1007 / s12555 - 015 - 0455 - 7

CrossRef全文|谷歌学术搜索

nano, K。,和帕帕多普洛斯,E。(2011)。漂浮基空间机器人的使用角动量的存在。智能。服务机器人。4、3日- 15日。doi: 10.1007 / s11370 - 010 - 0083 - 2

CrossRef全文|谷歌学术搜索

nano, K。,和帕帕多普洛斯,E。G. (2017). On the dynamics and control of free-floating space manipulator systems in the presence of angular momentum.前面。机器人。人工智能4,26岁。doi: 10.3389 / frobt.2017.00026

CrossRef全文|谷歌学术搜索

帕帕多普洛斯,E。Aghili F。,妈,O。,和lampariello, R. (2021). Robotic manipulation and capture in space: A survey.前面。机器人。人工智能8,686723。doi: 10.3389 / frobt.2021.686723

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Pravitra, J。,Ackerman, K. A., Cao, C., Hovakimyan, N., and Theodorou, E. A. (2020). “L 1-adaptive mppi architecture for robust and agile control of multirotors,” in2020年IEEE / RSJ智能机器人和系统国际会议(——)(IEEE)。

谷歌学术搜索

Rybus, T。,Seweryn, K。,和年代asiadek, J. Z. (2016). “Trajectory optimization of space manipulator with non-zero angular momentum during orbital capture maneuver,” in张仁制导、导航和控制会议。

CrossRef全文|谷歌学术搜索

Seweryn, K。,和Banaszkiewicz, M. (2008). “Optimization of the trajectory of a general free-flying manipulator during the rendezvous maneuver,” in张仁制导、导航和控制会议和展览,7273年。

CrossRef全文|谷歌学术搜索

Seweryn, K。,Basmadji, f . L。,和Rybus, T。(2022)。空间机器人的性能在切线捕获一个不受控制的目标卫星。j .宇航员。科学。69年,1017 - 1047。doi: 10.1007 / s40295 - 022 - 00330 - 2

CrossRef全文|谷歌学术搜索

Shyam, r。,,Z。,米ontanaro, U., Dixit, S., Rathinam, A., Gao, Y., et al. (2021). Autonomous robots for space: Trajectory learning and adaptation using imitation.前面。机器人。人工智能8,638849。doi: 10.3389 / frobt.2021.638849

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

托多罗夫,E。Erez, T。,和Tassa, Y. (2012). “Mujoco: A physics engine for model-based control,” in2012年IEEE / RSJ智能机器人和系统国际会议(IEEE),5026 - 5033。

CrossRef全文|谷歌学术搜索

Tomaszewska, J。Woch, M。,Krzyszkowski, J., and Zieja, M. (2019). Comparative analysis of vitality of gps and glonass satellite systems.透明。Procedia》43岁的57 - 62。doi: 10.1016 / j.trpro.2019.12.019

CrossRef全文|谷歌学术搜索

威廉姆斯,G。德鲁,P。,Goldfain, B., Rehg, J. M., and Theodorou, E. A. (2016). “Aggressive driving with model predictive path integral control,” in2016年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”(IEEE),1433 - 1440。

CrossRef全文|谷歌学术搜索

威廉姆斯,G。,Aldrich, A., and Theodorou, E. A. (2017a). Model predictive path integral control: From theory to parallel computation.j . Guid。控制,直流发电机。40岁,344 - 357。g001921 doi: 10.2514/1.

CrossRef全文|谷歌学术搜索

威廉姆斯,G。,Wagener, N., Goldfain, B., Drews, P., Rehg, J. M., Boots, B., et al. (2017b). “Information theoretic mpc for model-based reinforcement learning,” in2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”(IEEE)。

CrossRef全文|谷歌学术搜索

威廉姆斯,G。,Goldfain, B., Drews, P., Saigol, K., Rehg, J. M., and Theodorou, E. A. (2018). “Robust sampling based model predictive control with sparse objective information,” in机器人:科学和系统。

CrossRef全文|谷歌学术搜索

吴,中州。,Yu, Z.-C., Li, C.-Y., He, M.-J., Hua, B., and Chen, Z.-M. (2020). Reinforcement learning in dual-arm trajectory planning for a free-floating space robot.Aerosp。科学。抛光工艺。98年,105657年。doi: 10.1016 / j.ast.2019.105657

CrossRef全文|谷歌学术搜索

吉田,k (2003)。第七工程试验卫星的飞行实验空间机器人动力学和控制:理论实验室测试床十年前,现在在轨道上。Int。j .机器人Res。22日,321 - 335。doi: 10.1177 / 0278364903022005003

CrossRef全文|谷歌学术搜索

张,F。,和黄,P。(2016)。释放动力学和稳定控制的机动拴在空间网络。Ieee。ASME。反式。Mechatron。22日,983 - 993。doi: 10.1109 / tmech.2016.2628052

CrossRef全文|谷歌学术搜索

张X。,和l我u,J。(2018)。有效的运动规划策略的空间机器人捕获目标考虑泊位位置。《宇航员。148年,403 - 416。doi: 10.1016 / j.actaastro.2018.04.029

CrossRef全文|谷歌学术搜索

赵,P。,l我u,J。吴,c (2020)。调查研究和开发在轨活跃的残骸清除方法。科学。中国抛光工艺。科学。63年,2188 - 2210。doi: 10.1007 / s11431 - 020 - 1661 - 7

CrossRef全文|谷歌学术搜索

关键词:空间机器人、模型预测的路径积分控制、空间碎片、参数uncertainity planner-estimator模型预测路径积分控制器

引用:Raisi M, Noohian和Fallah年代(2022)容错和鲁棒控制器使用模型预测路径积分控制自由飞行空间机器人。前面。机器人。人工智能9:1027918。doi: 10.3389 / frobt.2022.1027918

收到:2022年8月25日;接受:2022年11月23日;
发表:2022年12月07。

编辑:

阿伦Misra加拿大麦吉尔大学

审核:

Serdar Kalaycioglu加拿大瑞尔森大学
卡罗尔Seweryn、空间研究中心,波兰科学院,波兰

*通信:军刀Fallah,s.fallah@surrey.ac.uk

原始研究的文章

容错和鲁棒控制器使用模型预测路径积分控制自由飞行空间机器人

1介绍

2相关的工作

三个先决条件

3.1空间机器人的运动学

3.2空间机器人的动力学

4模型预测路径积分控制

5 Planner-estimator MPPI

6模拟

6.1空间机器人的一般规范

6.2操作场景空间的机器人

6.2.1正常运行

6.2.2系统识别

6.2.3传动装置故障

6.2.4系统识别和执行机构故障

7结论

数据可用性声明

作者的贡献

的利益冲突

出版商的注意

引用

本文是研究课题的一部分

人也看了