原始研究的文章

前面。机器人。人工智能,2023年7月12日
秒。人机交互
卷10 - 2023 | https://doi.org/10.3389/frobt.2023.1152595

交互式学习行为树的不完美的人类示威

丽莎Scherf ^1、2*,<一个href="//www.thespel.com/people/u/2362520" class="user-id-2362520">

Aljoscha施密特 ¹,<我米g class="pr5" src="https://f96a1a95aaa960e01625-a34624e694c43cdf8b40aa048a644ca4.ssl.cf2.rackcdn.com/Design/Images/newprofile_default_profileimage_new.jpg" alt="www.雷竞技rebatfrontiersin.org">Suman朋友³和<一个href="//www.thespel.com/people/u/808235" class="user-id-808235">

多萝西娅Koert ^1、2

¹交互式人工智能和认知模型Human-AI交互(IKIDA),达姆施塔特科技大学、达姆施塔特,德国
²科技大学认知科学中心,达姆施塔特,德国达姆施塔特
³心灵遥感,智能自治系统集团,计算机科学系,达姆施塔特科技大学、达姆施塔特,德国

作品简介:在交互任务学习(ITL),代理学习新任务通过自然与人类互动的讲师。行为树(BTs)提供无功,模块化,可翻译的编码任务描述但尚未被应用在机器人ITL设置。大多数现有的方法学习BT从人类示威要求用户指定每个操作一步一步或不允许调整一个学会了BT无需从头开始重复整个教学过程。

方法:我们提出一个新的框架直接从只有少数人工任务学习BT示威活动记录为RGB-D视频流。我们自动提取连续BT动作节点的先决条件和后置条件的视觉特性和使用Backchaining方法来建立一个反应BT。在用户研究非专家如何提供不同示威,我们确定了三种常见的故障情况下的BT从潜在的不完美的人类最初的示威活动。我们提供一种交互式地解决这些故障情况下,通过改进现有的BT在web界面与用户交互。具体来说,失败的情况下检测到或未知状态自动执行期间学会了BT,最初的BT或延长调整根据提供的用户输入。

评估和结果:我们评估我们的方法与人类参与者20机器人垃圾处置任务,证明我们的方法是能够学习反应BTs只有少数人类示威和交互式地解决可能的情况下在运行时失败。

1介绍

多种可能的任务和用户首选项在日常场景呈现纯提前设计未来机器人的不足。学习新任务的能力从非专业用户因此成为一个关键组件的发展智能机器人系统(<一个href="#B20">Laird et al ., 2017)。

行为树(BTs)提供无功,模块化,可翻译的的任务描述和编码方法在机器人共同体(最近得到了越来越多的关注<一个href="#B22">Marzinotto et al ., 2014;<一个href="#B26">帕克斯顿et al ., 2017;<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B10">Fusaro et al ., 2021)。

然而,只有几个现有的方法学习BTs直接从人工任务演示(<一个href="#B29">罗伯逊和华生,2015年;<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)或允许调整或改进学习BT无需重复整个教学过程(<一个href="#B15">Helenon et al ., 2021;<一个href="#B16">Iovino et al ., 2022 a)。特别是,当处理不完整或不完善任务演示结果令人沮丧的教学程序,在执行时间失败的风险更高。

在本文中,我们提出ILBERT(交互式学习行为树),一个新的学习框架BT只有少数人类示威和交互式地细化了解BT在运行时。我们使用视觉特征提取高层行动分割和backchaining方法学习一个初始BT直接从视频演示。在执行时,我们解决故障情况下通过精炼或延长学习BT根据交互式用户输入了一个图形用户界面。

确定不同的州采取行动执行BT,我们提取人工任务的先决条件和后置条件示威。与相关方法(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021;<一个href="#B18">Iovino et al ., 2021),我们使用连续的条件,而不是二进制的和从人类的视频演示,而不是手动提取这些条件根据每个操作。然而,最初的示威活动和产生的先决条件和后置条件可能无法涵盖所有情况,在执行时可能发生的学会了BT。因此,在任务执行过程中,我们的方法自动检测状态未见在示威和请求额外的来自用户的输入来改进或扩展最初了解BT。<一个href="#F1">图1总结了我们建议的方法。

图1

图1。该方法的概述。首先,用户提供了一些示威活动的任务。任务相关特征提取和示威活动划分为高层行动序列。基于标签的特性和行动,为所有操作先决条件和后置条件计算。Backchaining方法用于建立一个初始行为树的条件可以直接执行的机器人。在执行期间,失败情况下会自动检测并解决使用用户提供的输入通过一个web界面和最初的行为树和迭代条件从而适应相应的行动。

我们研究两个主要研究问题在实验评估在垃圾处理机器人任务Franka Erika熊猫机器人。首先,我们分析在试点研究,以评估人类示威游行非专业用户提供什么样的任务对我们的机器人,以及何时和为什么BTs,学会了我们建议的方法从这个初始的示威活动失败。其次,我们提出一个交互式方法改进和扩展学习BT在运行时解决失败病例观察和评估我们的方法在随后的用户研究。示范试点研究的数据用于训练动作分类器预测高层行动序列提取视频特征的第二项研究。实验评价表明,我们建议的方法导致成功的改进和解决潜在的故障情况下初始BT后学习。此外,我们分析用户满意度方面产生的任务与整个系统性能和交互。

总的来说,我们的论文的主要贡献如下。首先,我们提出一个方法来直接从人类学习英国电信视频演示,包括自动动作分割和提取行动的先决条件和后置条件执行使用视觉特性。第二,我们分析可能情况不完美的非专业人类示威活动可能导致失败情况下的最初生成的BT。第三,我们实施和评估一个交互式方法解决这些故障情况下执行期间通过精炼或扩展BT与用户输入一个图形用户界面和额外的示威活动。

剩下的论文结构如下。在<一个href="#h3">第二节BTs,我们提供一个总结并讨论相关的方法。后来<一个href="#h4">第三节介绍我们的小说框架的交互式学习BT从几人的视频演示。在<一个href="#h5">第四节,我们分析可能导致的失败案例不完美的人类的示威活动,评估我们的方法在机器人与人类用户任务,并讨论结果。最后,<一个href="#h6">第五节总结了纸和展望了未来的研究方向。

2背景和相关工作

在本节中,我们首先提供一个总结行为树的概念,然后讨论相关工作学习行为树。

2.1行为树

行为树控制结构被用于不同的任务在一个自治代理之间切换。他们最初出现在游戏行业替代有限状态机(<一个href="#B23">Mateas和斯特恩,2002年;<一个href="#B24">米林顿Funge, 2018)。在过去的几年,他们表现出他们的潜力巨大构建机器人的行为(<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B17">Iovino et al ., 2022 b)。

有限状态机相比,BTs提供非耦合模块化的优点和更直接的可重用性(子)的行为,以及内置的反应性和改善人类可读性(<一个href="#B3">Colledanchise Ogren, 2016;<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B14">汉et al ., 2021)。

英国电信是一个有向根树由内部节点和叶节点。叶节点(子)执行任务,例如,behaviors, whereas all internal nodes are control flow nodes. An example BT can be seen on the top right in<一个href="#F1">图1,控制节点中描述矩形形状和执行节点椭圆体。在英国电信的执行过程中,根节点被套在指定的频率,将蜱虫信号传递给它的孩子。一个标记节点返回运行其母在执行期间,成功如果它的目标是实现,或失败否则。执行节点可以编码操作机器人执行或可能编码的条件,例如,检查环境或内部状态或传感器的反馈。最常用的控制节点序列节点和节点回退(描述和象征与符号→橙色和紫色吗?在<一个href="#F1">图1)。序列节点执行后续的孩子节点在一个序列和回报成功如果所有的孩子成功失败一旦一个孩子失败。后备节点也执行他们的孩子在一个序列,但回报失败只有在所有的孩子和失败成功一旦一个孩子成功。

它可以指出,BTs,根据定义,接近决策树(<一个href="#B3">Colledanchise Ogren, 2016;<一个href="#B9">法国et al ., 2019)。然而,BTs提供内置反应自节点可以执行超过一个使用的蜱虫运行状态,允许运行的其他行动抢占的回归失败。

有不同的现有代码框架实现BTs (<一个href="#B12">Ghzouli et al ., 2020)。在本文实验中,我们使用BehaviorTree。CPP库(<一个href="#B8">Faconti 2018与ROS)由于其兼容性。树是这里定义使用基于xml的格式,可以使用图形用户界面可视化大的(<一个href="#B8">Faconti 2018,<一个href="#B38">Faconti 2019)。

为进一步的细节在机器人和人工智能的BTs,我们指的是(<一个href="#B4">Colledanchise Ogren, 2018)。

2.2学习行为树

有几种方法来设计为特定的任务(BTs<一个href="#B17">Iovino et al ., 2022 b)。BTs可以手工或使用支持手动构造设计工具,如大的GUI编辑器。配角(<一个href="#B26">帕克斯顿et al ., 2017)使非专业用户创建健壮的机器人任务计划使用BT-based任务编辑器集成感知。这个简化实现但手工设计树循序渐进的仍然是必要的,具有挑战性的更复杂的任务。BTs也被用作控制结构手动结合原语在一个图形用户界面引导机器人运动技能学习(<一个href="#B19">酒店和Koert, 2021)。除了手工施工,BTs可以构建使用规划算法来计算一个计划来解决一个任务,然后将这个计划转换为BT。遗传规划,例如,用于自动构建一个BT从一组动作和条件和奖励或适应度函数(<一个href="#B32">Scheper et al ., 2016;<一个href="#B5">Colledanchise et al ., 2018;<一个href="#B18">Iovino et al ., 2021)。然而,定义这样一个函数可以是困难的,特别是对于用户的日常生活。同样的,<一个href="#B2">巴纳吉(2018)提出先自主学习强化学习控制策略,然后将这一政策转化为基于规范的BT BTs,这是一个降低BTs的代表。

学习示范(最晚完成日期)提供了一个不错的选择,尤其是还使非专业用户教机器人新任务(<一个href="#B28">Ravichandar et al ., 2020)。然而,我们所知,到目前为止,只有很少工作,学会了从示威行为树(<一个href="#B29">罗伯逊和华生,2015年;<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)。

其中一个方法是学习决策树(DT)展示了政府行动对后来学习DT转化为一个等价的行为树(<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019)。这是提出第一次协助游戏设计者编程的npc (<一个href="#B31">Sagredo-Olivenza et al ., 2017),后来扩展和应用学习机器人打扫屋子任务(<一个href="#B9">法国et al ., 2019)。具体地说,<一个href="#B9">法国et al。(2019)生成一个决策树(DT)从用户演示的形式通过一个用户界面选择的行动。

Gustavsson et al。(2021)提出一个方法来学习的BT动觉示威。此外,他们提出一个聚类方法确定每个操作的适当参考帧。英国电信是建立使用预定义的Backchaining二进制先决条件和后置条件。Backchaining算法首次提出的<一个href="#B6">Colledanchise et al。(2019)和提供了一个规划师自动种植BT。该算法迭代生长树代替失败的先决条件与子树代表一个动作一个适当的后置条件满足失败条件。<一个href="#B35">Styrud et al。(2022)将遗传规划与Backchaining平衡这两种方法的缺点,使学习更有效率。我们的方法还使用Backchaining构建一个BT。然而,我们为每个操作自动抽取,前置或后置条件从人类示威游行,而不是事先手动定义它们,而不是方法<一个href="#B13">Gustavsson et al。(2021);<一个href="#B6">Colledanchise et al。(2019)。此外,我们使用连续的先决条件和后置条件而不是二进制特征(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)。

另一种方法学习BT从人类示威活动是直接映射所有演示序列组成的子树节点的操作和显示地方BT的后备节点下的子树。<一个href="#B29">罗伯逊和华生(2015)应用这种方法学习BT战略游戏《星际争霸》之类的游戏。然而,这导致大型高难度BTs(> 50.000节点)的结构限制了反应性。

一些作品交互学习或提炼BTs通过与人类用户交互。<一个href="#B36">Suddrey et al。(2022)建立一个基于自然语言指令和BT使用交互式对话与用户请求更多信息和解决歧义。同样的,<一个href="#B16">Iovino et al。(2022)结合的方法<一个href="#B13">Gustavsson et al。(2021)与一个交互式的消歧框架(<一个href="#B7">Doğan et al ., 2022)在一个场景来解决歧义BT执行通过语言与用户的交互。然而,他们只关注失败病例从模糊的对象出现在现场。在<一个href="#B15">Helenon et al。(2021)结合手势、语音命令为了学习BT。方法允许增量学习任务与日益增长的复杂性与用户进行交互。然而,用户必须指定每个操作一步一步,可以麻烦复杂的任务。与大多数交互式方法学习BT (<一个href="#B15">Helenon et al ., 2021;<一个href="#B7">Doğan et al ., 2022;<一个href="#B36">Suddrey et al ., 2022),我们直接从录像学习BT的人工任务示威。

总的来说我们发现缺乏评估拟议的系统对机器人任务(BT与非专业用户学习<一个href="#B15">Helenon et al ., 2021;<一个href="#B18">Iovino et al ., 2021)和缺乏用户研究的关注物理演示完成任务序列(<一个href="#B5">Colledanchise et al ., 2018;<一个href="#B13">Gustavsson et al ., 2021;<一个href="#B36">Suddrey et al ., 2022)。

3交互式学习行为树从示威

本节介绍我们的小说框架交互学习行为树从几人示威(ILBERT)。与相关方法、任务示威RGB-D数据直接记录。我们自动提取任务相关特性和部分示威进入高层行动序列(<一个href="#h4-1">3.1节)。基于特征和行动序列,每个行动学习(先决条件和后置条件<一个href="#h4-2-1">3.2.1节),一个初始BT是建立使用Backchaining (<一个href="#B6">Colledanchise et al ., 2019)(<一个href="#h4-2-2">3.2.2节)。这个初始BT不可能涵盖所有可能的情况下,因为有限的潜在的不完美的示威活动。因此,失败的情况下,可能发生在学会了BT的执行会自动检测到,可以通过用户输入的交互解决通过web接口(<一个href="#h4-3">3.3节)。最初的BT和相应条件相应更新。<一个href="#F1">图1显示了管道的概述。在下面,我们更详细地解释每一个步骤。

3.1特征提取和分割

与其他相关方法(<一个href="#B9">法国et al ., 2019;<一个href="#B15">Helenon et al ., 2021),我们想直接从录音学习BT完成人工任务的执行,而不是要求用户解释每一步一步的行动。

因此,我们记录人工任务示威RGB-D相机和段这些录音到高层行动序列<我nline-formula id="inf1"> ${一个}_{0}^{d}, \dots, {一个}_{N^{d}}^{d}$ 为每一个演示<我nline-formula id="inf2"> $d \in D$ 使用pre-trained地图一个滑动窗口的标识符我在一组帧j特性<我nline-formula id="inf3"> $x_{0}, \dots x_{j} \in X$ 之一米行动一个₀,…一个_米在一组预定义的行为<我nline-formula id="inf4"> $一个$ :

c_{θ} (X_{0 。 。 我}) : R^{我 \times j} \mapsto 一个 (1)

在哪里θ表示模型的参数。灵感来自于<一个href="#B34">摘要et al。(2020),我们使用面向对象和hand-object距离特性<我nline-formula id="inf5"> $X$ 行动的分割。为了提取这些特性,我们使用MediaPipe (<一个href="#B37">Zhang et al ., 2020(即)来推断相关3 d地标。,wrist, thumb, and index-fingertip) of the user’s hand for each video frame. Using ArUco markers, we additionally obtain a 3D pose estimation of task-relevant objects (i.e., trash, trashcan, and lid). Since the ArUco detection fails to detect the marker during fast movements of the object due to motion blur, we are using the CMT tracking algorithm (<一个href="#B25">Nebehay Pflugfelder, 2015),除了。这是一个长期模范自由对象keypoint-based方法跟踪。跟踪器每次都重新初始化ArUco检测成功检测到一个标记。如果没有检测到,标记位置的跟踪预测。通过使用要点检测标记,该方法在对象的规模和占旋转和可以检测出标记,尽管运动模糊。我们使用移动平均滤波器来降低噪音功能。

我们训练的分类器手动标记记录人类的示威活动。因为有些行为可能发生频率较低比其他对于一个给定的任务,提前数据集是平衡的。我们比较不同标准的机器学习模型在本文实验和报告的结果<一个href="#h5-3-1">4.3.1节。

应该注意,动作分割不是本文的重点,但整体开发系统的一小部分。具体的分类模型是可互换的,可能会被替换为在未来的工作中更高级的方法。

3.2 Backchaining连续前置和后置条件

Backchaining提出了<一个href="#B6">Colledanchise et al。(2019)作为一个规划算法来建立一个BT基于每个行动的先决条件和后置条件。它已经被用于学习的BT动觉演示基于手动定义的操作条件(<一个href="#B13">Gustavsson et al ., 2021)。集成到一个框架,用于交互式基于用户的语言输入(消歧<一个href="#B16">Iovino et al ., 2022 a)表明Backchaining适合交互式学习任务设置。使用的先决条件和后置条件允许我们探测到看不见的状态和原因对正确的行为。

相比其他方法,借鉴人类示威(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B30">Safronov et al ., 2020),我们只使用连续的先决条件和后置条件而不是二进制特征。此外,我们直接学习对于每一个先决条件和后置条件从人类示威行动而不是事先手动定义它们,如<一个href="#B13">Gustavsson et al。(2021);<一个href="#B16">Iovino et al。(2022)。

3.2.1前置和后置条件提取从人类示威

在本节中,我们解释我们的方法自动提取,前置或后置条件从人类示威RGB-D视频数据的形式。类似于行动的分类(<一个href="#h4-1">3.1节)我们首先从示威游行中提取对象和手的位置,然后计算前置和后置条件K预定义的视觉特性<我nline-formula id="inf6"> $f \in F$ 基于面向对象和对象手中的距离。我们删除功能价值异常值通过应用价值约束ω₁(f),ω₂(f5)和删除所有值以下^th和超过第95百分位。离群值可以不准确造成的对象和手跟踪。

从动作分类器,我们获得高级动作场面<我nline-formula id="inf26"> ${一个}_{0}^{d}, \dots, {一个}_{N^{d}}^{d}$ 为所有人类示威<我nline-formula id="inf27"> $d \in D$ 和定义<我nline-formula id="inf28"> $O$ 所示的所有行动。

为每一个动作<我nline-formula id="inf29"> $一个 \in O$ ,我们定义的先决条件和后置条件值范围最小值之间<我nline-formula id="inf30"> $c_{精准医疗}^{-} (一个, f), c_{帖子}^{-} (一个, f)$ 和最大值<我nline-formula id="inf31"> $c_{精准医疗}^{+} (一个, f), c_{帖子}^{+} (一个, f)$ 对于一个功能f和行动一个

\begin{aligned} C_{精准医疗} (一个) : = & \{[c_{精准医疗}^{-} (一个, f), c_{精准医疗}^{+} (一个, f)] | f \in F_{精准医疗} (一个)\} \\ C_{帖子} (一个) : = & \{[c_{帖子}^{-} (一个, f), c_{精准医疗}^{+} (一个, f)] | f \in F_{帖子} (一个)\}, \end{aligned} (2)

在哪里<我nline-formula id="inf32"> $F_{精准医疗} (一个)$ 和<我nline-formula id="inf33"> $F_{帖子} (一个)$ 特征子集作为先决条件和后置条件的行动一个。一个条件为真,如果谎言条件范围内的所有功能。前提必须是真的在行动之前执行和检查行动执行期间允许反应相应的BT节点。后置条件指定到什么范围一个行动改变一个特定的功能。当我们为所有功能指定前置条件<我nline-formula id="inf34"> $(F_{精准医疗} (一个) = F)$ 的后置条件不同,因为大多数的行动能影响只有一个子集的特征<我nline-formula id="inf35"> $(F_{帖子} (一个) \subseteq F)$ 。

为了决定哪些特性f应该被包括在<我nline-formula id="inf36"> $F_{帖子} (一个)$ 为每一个动作一个米,我们计算三个指标₁(一个,f),米₂(一个,f),米₃(一个,f)基于相应的一组特征值序列<我nline-formula id="inf37"> ${Ψ^{一个, f, υ}}_{υ = 1, \dots, ϒ_{一个}}$ 所有ϒ_一个行动出现的一个特定的行动一个在所有的示威活动。每个特性值序列的值<我nline-formula id="inf38"> $Ψ^{一个, f, υ} : = {ψ_{0}^{一个, f, υ}, 。, ψ_{P_{υ}}^{一个, f, υ}}$ 从一开始帧到帧的行动发生υ为每一个功能f。背后的直觉这三个指标是使用方差的特性来决定是否由一个动作特性改变的启发<一个href="#B1">Abdo et al。(2013)。

首先,我们计算的开始和结束的平均差值序列的特性Ψ^一个,f,υ对所有ϒ_一个行动发生

米_{1} (一个, f) = \frac{1}{ϒ_{一个}} \sum_{1 \leq υ \leq ϒ_{一个}} |ψ_{P_{υ}}^{一个, f, υ} - ψ_{0}^{一个, f, υ}|, (3)

在哪里<我nline-formula id="inf39"> $ψ_{0}^{一个, f, υ}$ 和<我nline-formula id="inf40"> $ψ_{P_{υ}}^{一个, f, υ}$ 开始和结束值特性吗f和行动发生一个_υ。

第二,我们计算的平均帧特征值变化的数量超过一个阈值基于该特性的最小和最大价值所有动作发生

\begin{aligned} 米_{2} (一个, f) & = \frac{1}{ϒ_{一个}} \sum_{1 \leq υ \leq ϒ_{一个}} | K (一个, f, υ) | \\ 在哪里 K (一个, f, υ) & : = \{|我, \frac{ψ_{我 + 1}^{一个, f, υ} - ψ_{我 - 1}^{一个, f, υ}}{2} \\ > \frac{1}{\underset{1 \leq \bar{υ} \leq ϒ_{一个}}{马克斯} \{\underset{j}{马克斯} ψ_{j}^{一个, f, \bar{υ}}\} - \underset{1 \leq \bar{υ} \leq ϒ_{一个}}{最小值} \{\underset{j}{最小值} ψ_{j}^{一个, f, \bar{υ}}\}}\} 。 \end{aligned} (4)

第三,我们计算的方差值对所有示威

\begin{aligned} 米_{3} (一个, f) & = Var [l (一个, f)] \\ 在哪里 l (一个, f) : & = \{ψ_{P_{υ}}^{一个, f, υ} | υ \in [1, ϒ_{一个}]\} 。 \end{aligned} (5)

基于这三个指标,我们决定行动的一个特性是相关的后置条件,应该包含在<我nline-formula id="inf41"> $F_{帖子} (一个)$ 根据

\begin{aligned} F_{帖子} (一个) & : = \{f \in F | 米_{1} (一个, f) > 米_{1}^{-} \land 米_{2}^{-} < 米_{2} (一个, f) < 米_{2}^{+} \land \\ 米_{3} (一个, f) < 米_{3}^{+}\}, \end{aligned} (6)

在哪里<我nline-formula id="inf42"> $米_{1}^{-}$ ,<我nline-formula id="inf43"> $米_{2}^{-}$ ,<我nline-formula id="inf44"> $米_{2}^{+}$ 和<我nline-formula id="inf45"> $米_{3}^{+}$ 是手写的阈值。对于本文中的实验,我们集<我nline-formula id="inf46"> $米_{1}^{-} = 0.33$ ,<我nline-formula id="inf47"> $米_{2}^{-} = 0.2$ ,<我nline-formula id="inf48"> $米_{2}^{+} = 0.8$ ,<我nline-formula id="inf49"> $米_{3}^{+} = 0.2$ 。

为每一个行动和功能<我nline-formula id="inf50"> $F_{精准医疗} (一个)$ 和<我nline-formula id="inf51"> $F_{帖子} (一个)$ ,我们现在想定义最小和最大的价值<我nline-formula id="inf52"> $c_{精准医疗}^{-} (一个, f), c_{精准医疗}^{+} (一个, f), c_{帖子}^{-} (一个, f), c_{帖子}^{+} (一个, f)$ 的条件范围<我nline-formula id="inf53"> $C_{精准医疗} (一个)$ ,<我nline-formula id="inf54"> $C_{帖子} (一个)$ 。

为一个后置条件特征f和行动一个,我们认为最后一次δ帧所有动作事件和其余的帧相应的前提条件。在我们的实验中,我们使用δ= 3。计算最小值和最大值的条件范围<我nline-formula id="inf55"> $C_{精准医疗} (一个), C_{帖子} (一个)$ 在这些特征值

\begin{aligned} c_{精准医疗}^{-} (一个, f) = & 最小值 (\{ψ_{0 : P_{υ} - δ - 1}^{一个, f, υ} | υ \in [1, ϒ_{一个}]\}) 为 f \in F_{精准医疗} (一个) \\ c_{精准医疗}^{+} (一个, f) = & 马克斯 (\{ψ_{0 : P_{υ} - δ - 1}^{一个, f, υ} | υ \in [1, ϒ_{一个}]\}) 为 f \in F_{精准医疗} (一个) \\ c_{帖子}^{-} (一个, f) = & 最小值 (\{ψ_{P_{υ} - δ : P_{υ}}^{一个, f, υ} | υ \in [1, ϒ_{一个}]\}) 为 f \in F_{帖子} (一个) \\ c_{帖子}^{+} (一个, f) = & 马克斯 (\{ψ_{P_{υ} - δ : P_{υ}}^{一个, f, υ} | υ \in [1, ϒ_{一个}]\}) 为 f \in F_{帖子} (一个) 。 \end{aligned} (7)

我们这些范围后处理<我nline-formula id="inf56"> $C_{精准医疗} (一个), C_{帖子} (一个)$ ,所以动作的先决条件和后置条件对于一个给定的特性不重叠,所有初始范围不小于一个预定义的阈值τ(f)(在我们的实验中,我们使用τ(f)= 1.5厘米作为所有特性的阈值距离手指除外)。

最后,必须适应条件的先决条件和后置条件相邻操作组合在一起。<一个href="#Algorithm_1">算法1总结了整个条件计算的细节。

算法1。条件计算。

要求: $O$ :人类示威行动中所示,<我nline-formula id="inf8"> $F$ :功能,<我nline-formula id="inf9"> $D$ :游行示威

$τ (f), ζ, ω_{1} (f), ω_{2} (f) 为 f \in F : 参数$

为 $一个 \in O$ 做

为 $f \in F$ 做

删除离群值

计算指标m₁(一个,f),米₂(一个,f),米₃(一个,f)(方程3、4、5)

确定相关的后置条件<我nline-formula id="inf13"> $F_{帖子} (一个)$ 为每一个动作一个根据方程6

结束了

$C_{精准医疗} (一个) : = {(c_{精准医疗}^{-} (一个, f), c_{精准医疗}^{+} (一个, f)] | f \in F_{精准医疗} (一个)}$ ⊳定义条件范围方程(7)

$C_{帖子} (一个) : = {(c_{精准医疗}^{-} (一个, f), c_{精准医疗}^{+} (一个, f)] | f \in F_{帖子} (一个)}$

适应条件,这样,前置或后置条件不重叠

扩大范围小的条件低于价值的差异τ(f)

结束了

为d∈D做

为n_d∈(0,N^d]做⊳相邻的行为适应条件

$一个 \leftarrow {一个}_{n_{d}}^{d}$

$\hat{一个} \leftarrow {一个}_{n_{d} + 1}^{d}$

为 $f \in F_{帖子} (\hat{一个})$ 做

如果 $n o t f \in F_{帖子} (一个)$ 然后

$c_{精准医疗}^{-} (\hat{一个}, f) = 最小值 (c_{精准医疗}^{-} (\hat{一个}, f), c_{精准医疗}^{-} (一个, f))$

$c_{精准医疗}^{+} (\hat{一个}, f) = 马克斯 (c_{精准医疗}^{+} (\hat{一个}, f), c_{精准医疗}^{+} (一个, f))$

其他的

$c_{精准医疗}^{-} (\hat{一个}, f) = 最小值 (c_{精准医疗}^{-} (\hat{一个}, f), c_{帖子}^{-} (一个, f))$

$c_{精准医疗}^{+} (\hat{一个}, f) = 马克斯 (c_{精准医疗}^{+} (\hat{一个}, f), c_{帖子}^{+} (一个, f))$

如果

结束了

为d∈D做

$年代 (d) : = {(c_{精准医疗}^{-} ({一个}_{0}^{d}, f), c_{精准医疗}^{+} ({一个}_{0}^{d}, f)] | f \in F_{精准医疗}}$ ⊳定义开始条件

结束了

$G : = {(c_{帖子}^{-} ({一个}_{n_{d}}^{0}, f), c_{帖子}^{+} ({一个}_{n_{d}}^{0}, f)] | f \in F_{帖子}}$ ⊳定义目标的条件下

3.2.2 Backchaining

提取的先决条件和后置条件为每一个行动,一起行动序列的示威游行,都是用来构造初始使用Backchaining BT算法(<一个href="#B6">Colledanchise et al ., 2019)。首先,我们定义一个目标状态<我nline-formula id="inf57"> $G$ 的后置条件范围的最后显示行动示威,假设所有演示的目标状态是相同的为一个特定的任务。这一目标的条件放在树的根序列。然后迭代搜索树提出利用自模拟失败条件<一个href="#B30">Safronov et al。(2020)开始,从所有开始迭代条件范围<我nline-formula id="inf58"> $年代 (d)$ 所有的示威活动。在这里,开始条件<我nline-formula id="inf59"> $年代 (d)$ 是一组前提范围的第一个行动示范吗d。在每个步骤中,子树的后置条件满足失败的前提取代这种情况直到到达目标状态。但是,生成的订单可能导致逻辑冲突。可能有冲突的条件在同一路径树的结果,例如,钳子,应该是同时打开和闭合。因为这是永远满足不了的,这种冲突需要解决。我们使用一个改编自冲突化解的策略<一个href="#B30">Safronov et al。(2020)。冲突的子树向左、向上移动,直到冲突解决。最后,可以修剪产生的BT删除不必要的条件。Backchaining算法给出的概述<一个href="#Algorithm_2">算法2。

算法2。(改编自Backchaining算法<一个href="#B30">Safronov et al。(2020))

而 $G \neq T r u e$ 做

为 $d \in D$ 做

根据自模拟搜索失败条件入手<我nline-formula id="inf62"> $年代 (d)$

搜索行动,满足失败条件

用子树代替失败的条件

搜索和解决潜在的冲突

结束了

结束时

删除不必要的节点

我们学习反应行为树能够解决给定的任务,尽管外部影响。因此,定期了解BT是赊销与给定频率。通用BT行动必须返回运行而冗长的操作执行。如果一个动作返回运行向上,蜱虫传播到根节点,和树又自责。通过这种方式,可以不断监测和功能状态执行行动可以改变如果前置条件不再满足。通过这种方式,安全检查,例如,没有人类太接近机器人可以很容易地集成。

3.3交互处理失败的情况下

我们建议的方法学习BT只有少数人类示威。结果,用户努力保持低,只有一个简短的培训阶段后,机器人已经能够执行最初的BT。然而,一些示威活动不可能涵盖所有可能的场景或失败的病例,并处理这些不完整的示威活动是一个挑战(<一个href="#B13">Gustavsson et al ., 2021)。

在一项研究中有22个参与者如何非专业用户展示机器人任务(<一个href="#h5-2">4.2节),我们确定了三个主要的问题在执行BTs从这样的不完美的人类的示威活动。不久之后,我们描述这些潜在的失败场景和自动解释我们提出如何解决它们的互动方式。所有失败病例的概述以及他们如何解决基于用户输入所示<一个href="#F8">图8。

3.3.1解决前提失败

我们发现失败病例作为前置条件之前和期间操作失败或失败后置条件后执行一个动作(黄色的<一个href="#F8">图8)。条件失败如果相应的功能不躺在定义值范围内。

前提可能失败的原因有两种:要么机器人正试图执行正确的行动,但这个动作的先决条件不包括当前形势下,或后置条件不佳导致错误地标记行动BT。如果一个动作,例如,已经成功执行后置条件是次优的,因此不满足,机器人可以执行此操作。为了决定如何解决这种情况,该系统解释了什么行动它试图执行检查是否正确的子树旁边的BT是自责。用户问机器人确实是追求正确的行动。如果用户不证实,机器人要求必须执行的操作。在这种情况下,一个后置条件一定是学习不正确(蓝色<一个href="#F8">图8)。鉴于目前的特征值<我nline-formula id="inf63"> ${\hat{ψ}}_{坏蛋}^{f}$ 和正确的行动,有可能放弃BT和识别后置条件不佳。这种后置条件改变的建议行动的蜱虫会最终根据当前的特征值。后置条件,每个特性范围是与当前的特征值。如果该值超过最大值的后置条件范围<我nline-formula id="inf64"> $c_{帖子}^{-} (一个, f)$ ,它被设置为当前的特征值增加了参数ϵ:<我nline-formula id="inf65"> $c_{帖子}^{+} (一个, f) = (1 + ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$ 。这同样适用于条件的最小值<我nline-formula id="inf66"> $c_{帖子}^{-} (一个, f)$ 如果当前的特征值较低:<我nline-formula id="inf67"> $c_{帖子}^{-} (一个, f) = (1 - ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$ 。在我们的实验评价ϵ设置为0.1。前置和后置条件的适应了<一个href="#Algorithm_3">算法3。

算法3。前置条件和后置条件的适应

要求:ϵ:参数增加的数量变化

如果 $c_{pre∕帖子}^{-} (一个, f) > {\hat{ψ}}_{坏蛋}^{f}$ 然后

$c_{pre∕帖子}^{-} (一个, f) = (1 - ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$

其他的如果 $c_{pre∕帖子}^{-} (一个, f) < {\hat{ψ}}_{坏蛋}^{f}$ 然后

$c_{pre∕帖子}^{+} (一个, f) = (1 + ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$

结束如果

如果用户证实了机器人的下一个行动计划,现有的前提必须扩展到包括当前状态(红色<一个href="#F8">图8)。这个场景可能发生如果人类当前的示范正确的行动不包括当前功能状态。如果一个用户了Move-to-Trash行动只有一个位置的垃圾,这个行动的先决条件,例如,失败对不同垃圾的定位功能d我s_trash_trashcan。因为机器人知道这条件失败,它可以建议最有益的行动基于先决条件和后置条件。用户确认此操作或选择一个不同的行动,和失败的范围这一行动的前提是根据算法3。类似于改编的后置条件,值的最大值和最小值的条件<我nline-formula id="inf72"> $c_{精准医疗}^{-} (一个, f), c_{精准医疗}^{+} (一个, f)$ 如果当前的特征值是增加或减少<我nline-formula id="inf73"> ${\hat{ψ}}_{坏蛋}^{f}$ 相比之下更低或更高。如果是较低的,<我nline-formula id="inf74"> $c_{精准医疗}^{-} (一个, f)$ 被设置为<我nline-formula id="inf75"> $(1 - ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$ 如果是更高<我nline-formula id="inf76"> $c_{精准医疗}^{+} (一个, f)$ 被设置为<我nline-formula id="inf77"> $(1 + ϵ) \cdot {\hat{ψ}}_{坏蛋}^{f}$ 在哪里ϵ是一个参数用于增加的变化适应范围限制。错误的特性,否则会导致在执行期间一再失败,因为一个特性使超出范围限制在每一步,只是略微改变。

3.3.2解决失败后置条件

后一个动作成功并返回运行,我们将检查结果是否满足这一行动学习后置条件的功能状态。由于人类之间的差异示威和机器人的动作执行,行动结果可能不匹配的后置条件。在这种情况下,用户要求最后的动作是否成功执行和调整后置条件的基础上,根据当前状态<一个href="#Algorithm_3">算法3(蓝色<一个href="#F8">图8)。如果操作Release-Trash例如,成功执行,但由此产生的机器人之间的距离触手不匹配所示的手指距离人类的示威活动,关于这个功能的后置条件会失败。

3.3.3解决看不见的情况下额外的示威活动

前提条件失败,它可能发生,机器人不能解决的情况与任何示威行动到目前为止(绿色<一个href="#F8">图8)。这可能发生如果用户演示了一个拾起并定位任务的对象则是名正言顺的把握但在机器人执行另一个对象放置在这个对象和第一必须放在一边完成任务。学会了BT会失败,因为这种情况和所需的行动是没有显示在人类示威。在这种情况下,用户可以显示其他示威活动所需的行动或行为序列,直到最初了解BT以前失败的前提是满足。这些示威活动是用于计算条件中描述的新举措<一个href="#h4-2-1">3.2.1节。失败的前提就取代了迭代的新证明行动使用Backchaining方法(<一个href="#h4-2-2">3.2.2节),直到失败的前提是满足。

改编后学会了BT和相应的条件如前一节所描述的,它是必要的,以确保所有相邻的先决条件和后置条件操作仍组合在一起,如果有必要,调整相应的(<一个href="#Algorithm_1">算法1)。

应该注意的是,重建整个树没有必要解决描述失败病例。相反,失败的条件是改编或子树所取代。结果,英国电信的发展,和条件精制的机器人处理新情况,但最初的BT结构保持不变。在这里,我们的方法可以避免多次重复类似的示威活动,因为只有当地改变是必需的,和之前学的BT是剥削。

4实验评价机器人垃圾处理的任务

我们评估我们的方法在垃圾处理机器人任务Franka Erika熊猫机器人手臂。在试点研究与22个参与者,我们分析什么样的任务示威非专业用户提供和失败病例发生在执行一个BT从这些潜在的不完美和不完整的示威活动。在另一项研究中,我们评估产生的整个系统,包括互动解决失败的情况下的执行时间BT 20人的参与者。我们使用示范试点研究的数据来训练一个动作分类器预测高层行动序列从RGB-D人类示威活动的录像。在下面,我们首先描述实验详细设置<一个href="#h5-1">4.1节。后来,在<一个href="#h5-2">4.2节,我们从试点研究分析人类的示威活动。最后,我们评估整体互动的方法,分析对整个系统的用户满意度<一个href="#h5-3">4.3节。

4.1垃圾处理任务的设置

图2显示了垃圾处理的实验设置的任务。机器人应该学习如何捡垃圾(空tetra-pack)放置在区域标记为绿色<一个href="#F2">图2一个和倾倒垃圾桶。如果盖子放在垃圾桶,机器人应该先学习如何把盖子放在一边。对象的垃圾,垃圾桶,盖子用黄色突出显示<一个href="#F2">图2 b。Azure RGB-D Kinect摄像头(红色<一个href="#F2">图2一个)是用来记录所有人类示威和获得RGB和深度的信息。在ordertolearn a task representation in the form of a BT, we map the human’s high-level actions to the robot’s pre-defined high-level actions. The set of actions consists ofMove-to-Trash,Gr作为p-Trash,Move-to-Trashcan,Release-Trash,Move-to-Lid,Gr作为p-Lid,Move-to-Drop-Off,Release-Lid。所有操作被实现为一个自定义BehaviorTree反应动作节点。CPP框架(<一个href="#B8">Faconti 2018)。动作节点经常返回运行之前完成,返回成功或失败为了能够应对外部变化。用户可以通过web界面与系统通信的平板电脑(用蓝色突出显示<一个href="#F2">图2)。这个web接口是用于示威活动的记录(<一个href="#F2">图2一个)和交互式处理失败的情况下在机器人执行最初知道了BT (<一个href="#F2">图2 b)。所示的web界面对话<一个href="#F8">图8。

图2

图2。(一)一个参与者演示任务。示范录音可以开始使用web界面的平板(蓝色)。演示由Kinect Azure相机记录(红色)。开始之前的演示中,参与者被要求把垃圾在区域标记为绿色。(B)执行任务的机器人,通过平板电脑用户提供输入(蓝色)。任务相关对象(盖子、垃圾桶、垃圾)用黄色突出显示。

4.2初步研究确定缺陷在人类示威

相关方法学习BTs从人类示威,缺乏实验分析非专家如何证明任务和可能潜在的缺陷,当学习BTs从这样的示威活动。实验是进行用户熟悉系统(<一个href="#B15">Helenon et al ., 2021;<一个href="#B17">Iovino et al ., 2022 b)或只考虑自然语言指令(<一个href="#B36">Suddrey et al ., 2022)或动觉教学(<一个href="#B13">Gustavsson et al ., 2021),但没有人完成任务序列的示威活动。然而,我们认为它重要的见解关于人们如何使用演示任务处理不完美的示威活动。为了研究什么样的任务示威非专业用户提供我们的机器人和分析可能的失败病例的BTs从这样的示威游行,我们问22参与者(9男,13女性)来演示垃圾处置任务,所述<一个href="#h5-1">4.1节。一开始,我们对参与者进行了书面指示解释一般实验设置和程序。我们要求他们演示任务和运动迟缓,只用右手。每个参与者都要求三次,演示任务不同这三个试验之间的示威活动。我们没有显式地声明如何改变示威。

不仅对学习BTs从示威活动还为其他最晚完成日期的临近,变化是必不可少的学习有意义的任务表示,推广不同的情况(<一个href="#B1">阿卜杜et al ., 2013;<一个href="#B19">酒店和Koert, 2021)。与我们的实验中,我们贡献分析,提供见解如何非专业用户改变他们的示威和讨论潜在故障情况下可能发生当学习BT使用描述的方法从这些示威活动<一个href="#h4-2">3.2节。

每个演示之前,我们让参与者把垃圾在区域标记为绿色,所示<一个href="#F2">图2一个,然后开始演示使用web界面(<一个href="#F8">图8)。示威活动记录30帧的帧速率由Azure Kinect RGB-D以红色突出显示<一个href="#F2">图2。

4.2.1分析准备人类示威活动的变化

我们分析变异在人类示威活动基于记录对象位置和一个问卷,参与者回答后提供示范。

报告根据问卷所示变化<一个href="#F3">图3一。五的20个参与者说他们没有故意改变他们的示威游行,因为他们忘记了这个请求或不知道如何改变。报告的其他参与者不同的方式不同的示威活动,可分为七大类。七个参与者展示了不同的轨迹,当他们登上了垃圾,然后把垃圾到垃圾桶。六个参与者报告垃圾速度和位置的变化。九个参与者改变了他们抓住并发布垃圾示威。只有四个参与者说他们不同的示威活动将垃圾桶的盖子在他们的一些示威,要么把盖子放在垃圾桶在演示或将其放置在垃圾桶后他们把垃圾放进垃圾桶。一些变化只是一个参与者所示,如不同的垃圾当释放它的高度或故意打垃圾的垃圾桶前正确地释放它在垃圾桶显示机器人垃圾桶的位置。

图3

图3。(一)报道方式示威参与者试图改变他们的任务。一些参与者报告了多种类型的变化。(B)垃圾放置在x对所有参与者设在前三个示威。

定位的所有参与者的垃圾x设在所示<一个href="#F3">图3 b。参与者11、14、15日,16日、19日和21日报告说,他们故意不同垃圾定位在三个示威。特别引人注目,也有对象没有报告变化的垃圾仍然定位和不同的位置(例如,参与者5)。一些科目只略微改变了垃圾放置位置差异低于10厘米内的示威活动(例如,参与者10,12日22)。

我们确定了三个著名的失败案例,可以直接从记录发生当执行一个BT得知人类示威,所述<一个href="#h4-2">3.2节。首先,只显示微小的变化,在演示可以导致失败或未知情况下当机器人执行最初的BT从一些示威活动。例如,假设用户略微改变了垃圾放置所有的示威活动。在这种情况下,条件范围只会介绍这一具体案例,导致失败的前提,如果垃圾放置稍微到左边或者右边。同样适用于变化的运动和使用盖子。

能够处理这些前提条件在执行时间失败的情况下,仍然能够从只有少数人示威,我们提出交互式地精炼失败的前置条件中描述<一个href="#h4-3-1">3.3.1节。

第二个失败案例可能出现的差异造成的行为和相应的机械行为。如果的示威行动Move-to-Trashcan例如,总是围绕一个特定的位置在垃圾桶和这对机器人动作结束位置不同,这次行动失败执行期间的学习后置条件。在这种情况下,这个动作的后置条件必须精炼中描述<一个href="#h4-3-2">3.3.2节。

因为只有四个所有20个参与者包括垃圾桶的盖子在他们示威,所有其他参与者的学习了BT会失败的情况下被盖子放在垃圾桶。在这种情况下,所需的行动序列先把盖子放到一边不显示在示威。在这种情况下,需要行动是用来学习的示威活动中没有显示最初的BT,我们建议根据额外扩展BT人类示威的行动(<一个href="#h4-3-3">3.3.3节)。

在飞行员的测试中,我们发现有些用户只沿着一个轴进行运动导致直角的运动,大概是为了模仿机器人和支持学习任务的机器人。我们怀疑用户故意适应他们的示威活动如果他们意识到这些示威活动被用来教机器人的任务。获得深入理解这一现象,在实验中,我们特别要求参与者在一个问卷是否证明了任务通常他们将如何执行它或如果他们证明了任务预期机器人执行任务。所有22个参与者,12个用户表示,他们执行任务时通常会执行它。另一方面,十个主题报道他们的示威活动适应机器人的行为。

4.3评价互动BT学习机器人垃圾处理的任务

我们机器人进行实验与20个参与者(8男,12女性)来评估整个系统,包括学习一个初始的管道直接从几人的视频BT示威活动和互动细化的最初了解BT在机器人执行。在这里,我们使用一个分类器训练中描述的示范试点研究中收集的数据<一个href="#h4-1">3.1节行动的分割。

所有20个参与者,15人在18到25岁之间和五26到35岁之间。研究对象主要是低水平的报道经验与机器人。特别是,十一个人之前从来没有直接接触机器人,五人报道不到十遇到机器人,和只有五人接触机器人十倍以上。

实验分为两个部分。首先,参与者显示三个任务示威,最初的BT建于中描述<一个href="#h4-2">3.2节。后来,机器人执行BT,参与者应该交互式地解决最终失败的情况下发生。在下面,我们首先呈现的结果行动分割训练数据集收集试点研究(<一个href="#h5-3-1">4.3.1节)。然后,我们分析的结果行动分割,前置和后置条件计算,英国电信大楼<一个href="#h5-3-2">4.3.2节。<一个href="#h5-3-3">4.3.3节评估所有失败的情况下执行期间,这些失败是如何解决的。有关交互的用户满意度与整体系统根据用户体验调查问卷(UEQ)进行了分析<一个href="#h5-3-4">4.3.4节。学会BTs展示在的反应<一个href="#h5-4-5">4.3.5节,如何使用额外的示威活动的一个例子来扩展一个初始BT的垃圾处理任务中描述<一个href="#h5-3-6">4.3.6节。

4.3.1行动训练分类器分类

记录的数据集,我们比较不同的监管行动标准的机器学习模型分割提取证明行动序列是一个必要的组成部分发达的管道。此外,我们报告分段拾起并定位操作从人类示威活动时遇到的挑战。

中描述的<一个href="#h5-2">4.2节在试点研究受试者第一次展示了三次任务没有进一步说明如何完成任务的准确。他们完成了这三个试验后,我们另外收集示威活动有更多的详细说明,以便有一个结构良好的数据集来训练分类器对垃圾处理任务。在这里,我们首先要求他们演示任务三次从预定义的不同起始位置的垃圾不动垃圾桶盖子。后来,我们特别要求他们首先垃圾桶的盖子再次展示任务前三次。

作为分类器的特性,我们使用手之间的距离垃圾,垃圾桶,垃圾到垃圾桶,拇指食指输入,盖子,盖子垃圾,垃圾桶盖子,垃圾的速度。所有的距离和速度计算基于提取的对象位置和手功能,所述<一个href="#h4-1">3.1节。

滚动窗口的前五帧和5帧在每一帧被使用。我们手动标记人类示威活动获取地面实况的视频标签。所有的行动分类结果模型所示<一个href="#T1">表1。我们k-fold交叉验证的方式训练模型的平衡数据集21参与者和剩下的参与者用于验证。我们报告模型的均值得分22折叠。最好的结果是通过使用多项式核的支持向量机学位3中强调<一个href="#T1">表1。实现精度加权得分0.849,F1-score 0.856,精度0.843,0.897召回。使用一个随机森林模型的精度与0.856略高。然而,随机森林模型只能达到0.725验证数据的准确性。

表1

表1。行动prestudy数据集分割结果对不同的模型。

试点研究中,我们观察到两个通用学习机器人拾起并定位任务时可能出现的问题,从人类示威。首先,人们倾向于只略微打开和关闭他们的手指当展示或释放行动。这很难可靠地检测这些行为和学习有意义的条件下基于拇指和食指输入之间的距离。第二,没有一个固定的起始和结束位置用户的手,用户可能无意中跳过行动机器人执行任务是必要的。一些参与者已经把他们的手在垃圾示范,这样行动的开始Move-to-Trash没有显示。然而,机器人必须首先执行行动Move-to-Trash到达这个位置高于垃圾从它的起始位置。为了避免这些问题,我们采用书面指示关于第二项研究前示威。具体来说,我们要求参与者保持他们的手张开,除非他们是贪婪的垃圾,包括一个固定的开始和结束位置的用户的手的示威活动。然而,应该注意的是,这些修改的指令可能限制用户在如何展示。

因为这些指令的变化可能会导致不同的示威,我们延长了训练数据集与额外的示威活动任务的一个固定的开始和结束位置的手,一个更广泛的生路。总的来说,我们添加了20示威没有使用盖子和22示威活动的任务与垃圾桶的盖子放在开始。

动作分割结果发表在这个扩展训练数据集<一个href="#T2">表2。再一次,一个多项式核的支持向量机度3达到最好的结果精度加权得分为0.853,F1-score 0.863,精度0.850,0.901召回。再次训练随机森林模型的精度与0.861略高,和一个多层感知器(MLP)达到类似F1-score。以来,总的来说,支持向量机优于其他分类器,我们使用这个模型的扩展数据集训练机器人实验下面描述。

表2

表2。行动扩展数据集分割结果对不同的模型。

4.3.2实验评价BT建设从人类示威

初的实验中,参与者被给予书面说明解释的任务以及如何开始录音示范使用web界面所示<一个href="#F8">图8。相比第一项研究中,他们被要求保持他们的手张开,除非他们掌握垃圾和开始和结束示威用手放置接近机器人抓手,如图所示<一个href="#F4">图4一。

图4

图4。(一)发现手和物体位置的对象垃圾,垃圾桶和盖子。参与者被要求开始和结束演示用手放在靠近机器人抓手。(B)提取的特征为一个模范示范。使用训练分类器的分段操作与垂直线所示。

阅读说明书后,参与者记录三个示威游行,从一个BT建于根据描述的管道<一个href="#h4">第三节。对于给定的任务,我们使用条件中描述的特性<一个href="#T3">表3。

表3

表3。所有条件特性的描述用于机器人垃圾处理的任务。

图4说明了这些提取的功能在一个完整的任务示范一个参与者。这里,盖子之间的距离和垃圾桶不是可视化中使用的盖子不是示威以来,价值是,因此,常数。我们使用移动平均滤波器在5帧来减少噪声的特性。可以看到,在Move-to-Trash行动,垃圾和手之间的距离和盖子减少。拇指和食指输入之间的距离变化的行动Gr作为p-Trash,而功能d我s_hand_trashcan和d我s_hand_lid改变在行动Move-to-Trashcan。的行动Release-Trash,拇指和食指输入之间的距离变化,也是垃圾,垃圾桶和手之间的距离和垃圾垃圾落下来。每个动作的学习后置条件反射的特性改变了每一个行动。一个参与者的学习条件在所有操作和特性可视化<一个href="#F5">图5。特征值对应于一个前提所示所示蓝色和后置条件是橙色。

图5

图5。所有特征值对应的先决条件(蓝色)和后置条件(橙色),一位与会者在所有操作和功能。如果一个动作的变化特性,这一特性被用作后置条件这一行动。所有后续行动的先决条件是根据这种后置条件。

英国电信从给定的人类示威所示<一个href="#F6">图6。为了提高可读性,操作的子树Move-to-Trash,Gr作为p-Trash,Release-Trash都崩溃了。的R一个ngeCondition节点代表各自特性的学习条件和上下值。在执行期间,根上有0.1赫兹的频率。一开始,所有的功能都被要求的RequestFeatures节点。因为垃圾桶和盖子之间的距离保持不变示威,这个功能已经实现的目标条件开始。接下来,我们检查是否操作的前提Move-to-Trashcan关于垃圾和垃圾桶之间的距离已经实现。如果垃圾桶的垃圾仍远,回退子树是自责。在这个子树,行动的先决条件Move-to-Trash第一次检查,如果可能的话,Move-to-Trash是执行。然后,行动Gr作为p-Trash如果执行先决条件允许这样做。同样的行动Move-to-Trashcan和Release-Trash。最后,我们检查所有目标条件是否满足,如果他们是,BT的执行终止。

图6

图6。(一)英国电信的例子使用的三个示威参与者之一。更好的可读性的子树Move-to-Trash,Gr作为p-Trash,Release-Trash行动是崩溃了。每个操作都包含在形式的后备节点与左边的后置条件和右边的前置条件和相应操作节点。(B)扩大BT使用额外的人类示威活动如何放下盖子之前向垃圾。对应的子树的最初了解BT以绿色和黄色突出显示。添加的子树的基础上,额外的示威活动标记为红色。

在<一个href="#F7">图7,我们分析成功的完成每一步的管道,包括特征提取和动作分割,计算和BT建设条件,以及机器人的执行学习BT和交互式消散的失败案例。以防BT是成功由人类的示威活动,在执行期间所有失败病例可以得到解决,基于用户输入,和机器人可以成功地完成这项任务对于那些BTs学习。然而,特征提取和动作分割结果失败10参与者,这阻碍了条件计算和BT建设在这些情况下。使用正确的标签从人工注释,条件计算和BT建设成功14参与者。为了能够测试互动细化为所有参与者通过用户沟通,我们使用后备BT在实验的情况下没有BT能建成。学会了BT和互动的机器人执行分解的故障情况下对所有20个参与者是成功的。在下面,在管道的不同步骤和相应的故障原因详细分析。

图7

图7。(一)许多成功的完成每一步的管道包括特征提取和动作分割,计算和BT建设条件,并与用户输入假设机器人任务执行前一步成功完成。成功的完成所有20个参与者的数量报告。(B)动作分割失败和对应的所有60所示示威的理由。(C)失败在条件计算和BT建设假设正确操作标签。报告的行动造成问题。

10个参与者,动作分类器没有提取正确的动作序列在至少三个示威活动之一。行动的混淆矩阵分割所有示威所示<一个href="#F9">图9。相邻等操作Move-to-Trash和掌握垃圾经常被混淆,因为它很难确切地告诉框架的一个动作的开始和结束另一个操作。原因问题行动分割失败被分解<一个href="#F7">图7 b。十一的手或对象检测失败的示威,导致部分错误的特性和错误地预测行为。特别是,一位与会者穿着长袖t恤阻碍媒体管的手跟踪在所有三个示威活动的开始。七的60示威,垃圾不能正确检测到帧,和在一个演示中,盖子检测失败。对象检测这些错误通常发生在结束的演示中,也反映在高混乱的行为没有什么作为Move-to-Trash。尤其是垃圾行动后的检测Release-Trash问题自ArUco标记是不可见的垃圾桶内,在这种情况下,经常发现在一个不正确的位置。七示威,pre-trained动作分类器分配不正确的标签,尽管一个精确的特征提取。所有情况下,至少有一个演示是错误地标记,无法获知的条件正确和BT不能建造。然而,对于所有正确的行动序列预测的情况下,可以提取有意义的条件和一个可执行的BT已成功建立。

为了能够测试所有参与者的互动机器人执行期间,使用回退BT的BT不能建造。<一个href="#F7">图7 c说明了BT多长时间可以建立成功的情况下,我们使用手动标注操作标签。在这种情况下,可以提取有意义的条件,和一个BT建于14的20个参与者。五参与者,手指的距离不是公认的相关行动的后置条件Gr作为p-Trash导致BT只有组成的行动Move-to-Trash,Move-to-Target,Release-Trash。一个参与者,同样的问题发生了Release-Trash行动。

4.3.3互动失败案例处理的实验评价

的第二部分研究的目的是评估如果机器人可以成功地执行了BT在执行期间如果失败病例可以通过精炼解决这个初始BT的帮助用户。

机器人执行,我们替换的手腕位置用户与机器人的末端执行器-一个小的位置偏移量。拇指和食指输入位置都替换为抓手的机器人。由于人手可以打开更广泛的比机器人抓手,我们两夹头之间的距离映射到一个范围在0到14厘米之间。

在书面指示,参与者被要求观看机器人虽然执行学习任务和提供指导,如果机器人通过web界面要求帮助。基于这些输入,初始BT和学习条件中描述的更新<一个href="#h4-3">3.3节。在机器人的帮助下成功解决了任务一旦用户,机器人执行更新后的第二次BT。由于BT更新使用用户的输入,我们期望更少的失败案例,因此,减少第二次请求帮助。不同故障情况下的web界面对话示意图所示<一个href="#F8">图8 b。

图8

图8。(一)概述web界面的展示和记录一个新的任务。首先,用户选择按钮“演示技巧”。然后开始和停止记录按“启动”和“停止”按钮。(B)Webinterface对话对不同故障情况下(黄色)和相应的答案的可能性。如果一个后置条件失败,用户可以确认适应失败条件(蓝色)。在前提条件的情况下失败,用户提供了更多的信息对当前所需的行动以适应其先决条件(红色)。如果机器人正在试图实现已经执行一个动作,它的后置条件必须适应(蓝色)。以防当前所需的行动是示威游行中没有显示,但需要额外的示威游行(绿色)。

在<一个href="#T4">表4,所有调整的先决条件和后置条件总结了第一次和第二次任务执行所有十成功建立BTs从人类示威。对于这一分析,我们排除的情况下,参与者继续撤退BT自相同的结构和条件范围的后备BT导致类似的故障情况下机器人执行期间。平均1.89 4.67先决条件和后置条件改变时的第一个机器人执行每个参与者。要求用户输入的执行已经调整BT是少,平均0.11 1.78先决条件和后置条件调整根据用户输入。需要调整的数量可以有所不同,除此之外,基于BT的学习结构。失败的原因在执行最初的BT的机器人执行运行主要是实现机器人的行为之间的差别,以及用户证明。在第一个实验中运行,操作的前提Move-to-Trash关于功能d我s_hand_trash失败的十倍。原因在于实现机器人的行动Move-to-Trash首先,因为机器人移动到pre-grasp地位高于垃圾,从而爪之间的距离和垃圾所示的功能范围的上限超过人类的示威活动。不同的实现机器人的行动可以避免这种失败。拟议的互动方式,然而,由于这种失败的情况下仍然可以解决在执行期间。降低失败的病例数量已经调整的执行期间BT表明BT提高通过与用户的交互。必须提到相对大量的失败的行动Move-to-Trash关于功能d我s_xy_trash_trashcan在第二次运行发生5 6次与一个特定的用户交互。这个用户行为相混淆Move-to-Trash和Move-to-Trashcan导致次优的输入和重复失败的前提,直到用户意识到错误。更详细解释所有操作的web界面形式的额外信息按钮可以改善交互,还建议在一些用户的评论在随后的用户体验调查问卷。其他原因失败在第二次运行改进的BT可以在对象跟踪不准确,导致功能已经超过学习和改进的功能范围。所有20个参与者,第一次和第二次机器人执行BT结束,成功完成任务的帮助下用户输入。

表4

表4。分析前置和后置条件的变化在机器人执行不同的动作和功能为第一和第二机器人执行。

4.3.4用户体验

用户体验调查问卷的结果(UEQ) (<一个href="#B33">Schrepp et al ., 2017)所示<一个href="#F9">图9。我们排除了三个参与者的回答,因为他们的回答显示出很大的区别不同商品的评价相同的规模。这被认为是一个有问题的数据模式UEQ和随机提示或不严重的答案。剩下的17个参与者,所有六个构造UEQ问卷显示值高于0.8(橙色),这被认为是一个积极的评价。这里,天平的范围之间−3(可怕的)和+ 3(极好的)。特别是,构造“吸引力”(意思是:1.70,中数:2.0),“简明”(意思是:1.61,中数:2.0),“可靠性”(意思是:1.40,中数:1.5),“刺激”(意思是:1.88,中数:2.0),和“新颖”(意思是:1.50,中数:2.0)被评为积极。唯一一项评估值低于0.8平均是一项“慢/快”的价值−0.6,或多或少代表一个中性的评价。这将导致更低的值对应的构造“效率”(意思是:0.83,中数:1.0)。其中一个原因可能是web界面的设计,要求用户再次按“垃圾处理”后的web接口的每一个互动和相应的细化BT继续机器人执行。三个参与者建议自动继续他们的评论和删除这个步骤的任务被认为是不必要的。

图9

图9。(一)混淆矩阵显示预测高层行动相比,手动贴上地面实况的行动。绝对的帧数,以及归一化值报告下面的括号里。(B)结果六个构造的用户体验调查问卷(UEQ) / 17参与者。中位数是橙色和绿色的三角形显示所示的意思。值高于0.8(绿线)被认为是一个积极的评价。

4.3.5习得行为树的反应性

反应性是行为树的主要优势之一。我们的方法的交互式学习行为与连续树从人类示威先决条件和后置条件保存这个反应。这需要实现为所有操作反应动作节点,这样机器人可以执行期间应对外部变化。所示的一个例子<一个href="#F10">图10。机器人移动到垃圾,掌握它,并开始走向垃圾桶。在之间的行动Move-to-Trashcan垃圾,再次从机器人的钳子,把在起始位置。因为操作的前置条件Move-to-Trashcan不再是实现垃圾从夹中移除时,行动呢Move-to-Trashcan被抢占。接下来的蜱虫的BT触发动作Move-to-Trash和机器人朝着垃圾了。这个例子展示了学会了BT的反应。如果一个操作失败在执行期间,机器人能够适应新形势下,仍然成功地执行任务。例子等故障情况下,对于给定的垃圾处理任务可能是机器人不能抓住垃圾或滴垃圾而走向垃圾桶。

图10

图10。例子展示的反应了解BT。机器人捡起垃圾和走向垃圾桶。中间的行动Move-to-Trash垃圾从夹中移除,放在别的地方(用绿色突出显示)。行动是抢占和机器人开关再次行动Move-to-Trash。

4.3.6包括额外的人类示威

除了行动的交互式优化条件,我们的方法可以包括其他示威游行在最初学习了BT,中描述<一个href="#h4-3-3">3.3.3节。这样,它可能包括新的动作或行动序列如果一个看不见的形势需要。在我们的研究中对非专业用户演示任务(<一个href="#h5-2">4.2节)我们看到大多数用户只演示如何处理垃圾如果垃圾桶的盖子已经拨出。BT从这种不完美的示威活动,不能解决任务成功如果盖子放在垃圾桶。如果用户想要教会机器人如何第一次预留盖子,有必要显示额外的示威活动所需的动作,并将它们包括在最初的BT。有可能从头开始教机器人新BT通过展示整个任务从垃圾桶的盖子上三次。然而,通过展示任务的一部分不知道机器人和利用已经学习了英国电信用户努力就可以保持在较低水平。首先,最初的BT是由三个人类示威活动从盖子已经预留,如所示<一个href="#F11">图11。如果机器人执行这个BT和盖子的垃圾桶,操作的前提Move-to-Trash关于功能d我s_trashcan_lid失败。自当前所需的行动是没有显示在前面的任务演示,用户必须提供新的示威直到结束的行动失败的前提(对应Move-to-Trash),如所示<一个href="#F11">图11 b。这个动作必须包括在示威游行来缓解新的行动和第一个行动之间的过渡的一个子树初始BT。然后添加到初始BT基于额外的示威活动中描述<一个href="#h4-3-3">3.3.3节。在<一个href="#F11">图11我们的展示,BT从人类示威(<一个href="#F6">图6)可以成功地扩展人类使用额外的示威活动。结果中说明了BT<一个href="#F6">图6 b。对应的子树的最初了解BT以黄色和绿色突出显示。相对应的子树额外的示威活动以红色突出显示。为了提高可读性,有些行为和子树倒塌了。

图11

图11。(一)最初的人类垃圾处理任务的示威活动盖子已经拨出。(B)为了能够执行任务如果垃圾桶的盖子,用户显示额外的示威显示如何设置前的盖子Move_to_Trash行动。

5的结论

在这篇文章中,我们介绍了ILBERT,新的框架交互学习BT从人类示威。在相关的方法相比,我们直接从只有少数学习BT RGB-D录像的人工任务示威和自动提取一组连续的动作执行的先决条件和后置条件的视觉特性。在非专业用户演示任务如何研究一个机器人,我们确定了三个主要原因失败当学习BT从几个人的示威游行。我们在运行时自动检测并解决这些故障情况下要求交互式用户通过一个web界面的帮助和调整BT和基于用户输入相应的条件。我们评估结果系统与20机器人垃圾处置任务主题。而自动条件计算,英国电信大楼,和交互式优化显示效果良好,动作分类器在本文用于实验应该被一种更健壮的方法在未来。评估UEQ显示整体高水平的用户满意度与发达系统。

5.1限制

我们相信我们的方法的交互式学习机器人行为行为树的形式从潜在的不完美的人类示威活动提供了一个用户友好的方式教机器人新技能。然而,仍然有一些局限性提出的工作。相当简单的方法评估拾起并定位任务,这将是有趣的,看看这个方法可以扩展到更复杂的任务的场景。BT-based框架允许将任意行动作为动作节点实现。然而,需要一个可靠的对象跟踪和行为识别为了能够计算有意义的条件和构建一个可执行的行为树。此外,必须预先定义的任务相关特性。当我们提出一个新的方法来提取连续直接从人类示威,先决条件和后置条件的方法需要大量task-dependent hyper-parameters。

5.2未来的工作

对于未来的工作,我们认为它有趣的扩展提出框架向多通道人类示威活动和学习等也提供多通道交互渠道演讲和手势。此外,我们想要探索替代方法自动前置和后置条件提取从人类示威活动在不同任务的设置。<一个href="#B1">Abdo et al。(2013)集群特性值在一个动作的开始和结束每个集群代表一个不同的方式操作了。他们引入方差测量基于这些集群以识别相关的操作条件。类似的方法可以用来改善当前状况计算,以及确定相关操作条件的一组更大的特性的集合任务相关的特性。我们也想进行进一步研究如何更好的引导非专家提供有意义的额外的示威活动的失败由于看不见的情况下,是否随着时间的推移,他们可以学习如何提供一个更完整的机器人学习一些最初的示威活动。另一个有趣的未来方向是使用交互式人工输入拟议的框架内不仅解决BT在执行时失败,另外包括用户反馈改进动作分类器在半监督的方式(<一个href="#B11">Gassen et al ., 2023;<一个href="#B27">Rangnekar et al ., 2023)或交互式对象检测(<一个href="#B21">Lombardi et al ., 2022)。

数据可用性声明

原始数据支持了本文的结论将由作者提供,没有过度的预订。

道德声明

综述了研究涉及人类参与者,达姆施塔特科技大学伦理委员会批准。患者/参与者提供了他们的书面知情同意参与这项研究。书面知情同意了个人(s)的出版的任何潜在的可识别的图像或数据包含在本文中。

作者的贡献

LS由写作手稿,开发建议的方法,编码、计划、准备和执行实验。导致了开发和编码的建议的方法和写作手稿。SP方法的发展。DK导致了计划的实验和写作手稿。所有作者的文章和批准提交的版本。

资金

这项工作是由德国联邦教育和研究(项目01 is20045)。

确认

作者要感谢尼克•丹嫩贝格Johannes Heeg,艾德里安替他们的烦恼有价值的输入和富有成果的讨论这个项目的开始。此外,我们要感谢所有的人参加了我们的实验时间和有价值的反馈。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

阿卜杜,N。,Kretzschmar, H., Spinello, L., and Stachniss, C. (2013). “Learning manipulation actions from a few demonstrations,” in2013年IEEE机器人与自动化国际会议上,德国卡尔斯鲁厄,2013年5月06-10(IEEE),1268 - 1275。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+manipulation+actions+from+a+few+demonstrations&btnG=">谷歌学术搜索

巴纳吉,b (2018)。“自主机器人控制收购行为树”2018年IEEE / RSJ智能机器人和系统国际会议(——),马德里,西班牙,2018年10月01-05(IEEE),3460 - 3467。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Autonomous+acquisition+of+behavior+trees+for+robot+control&btnG=">谷歌学术搜索

Colledanchise, M。,Ögren, P. (2016). How behavior trees modularize hybrid control systems and generalize sequential behavior compositions, the subsumption architecture, and decision trees.IEEE反式。机器人33岁,372 - 389。doi: 10.1109 / tro.2016.2633567

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=How+behavior+trees+modularize+hybrid+control+systems+and+generalize+sequential+behavior+compositions,+the+subsumption+architecture,+and+decision+trees&btnG=">谷歌学术搜索

Colledanchise, M。,Ögren, P. (2018).机器人和人工智能行为树。斯德哥尔摩:皇家理工学院的k。

谷歌学术搜索

Colledanchise, M。Parasuraman, R。,Ögren, P. (2018). Learning of behavior trees for autonomous agents.IEEE反式。游戏11日,183 - 189。doi: 10.1109 / tg.2018.2816806

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+of+behavior+trees+for+autonomous+agents&btnG=">谷歌学术搜索

Colledanchise, M。阿尔梅达,D。,Ögren, P. (2019). “Towards blended reactive planning and acting using behavior trees,” in)举行2019机器人与自动化国际会议上(“国际机器人与自动化会议”,加拿大的蒙特利尔,QC,至2019年5月(IEEE),8839 - 8845。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Towards+blended+reactive+planning+and+acting+using+behavior+trees&btnG=">谷歌学术搜索

Doğan, f I。老爹,我。,le我te,I. (2022). “Asking follow-up clarifications to resolve ambiguities in human-robot conversation,” in2022年17 ACM和IEEE国际会议上人机交互(HRI),日本札幌,2022年3月07-10(IEEE),461 - 469。

谷歌学术搜索

Faconti, d . (2018)。BehaviorTree.CPP。可以在:<一个href="https://www.behaviortree.dev/">https://www.behaviortree.dev/(2023年1月18日通过)。

谷歌学术搜索

Faconti, d . (2019)。Mood2be:模型和工具来设计机器人的行为。技术代表。4所示。西班牙巴塞罗那:Eurecat中心Tecnologic。

谷歌学术搜索

法语,K。吴,S。,P一个n,T。周,Z。,Jenkins, O. C. (2019). “Learning behavior trees from demonstration,” in)举行2019机器人与自动化国际会议上(“国际机器人与自动化会议”,加拿大的蒙特利尔,QC,至2019年5月(IEEE),7791 - 7797。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+behavior+trees+from+demonstration&btnG=">谷歌学术搜索

Fusaro F。,l一个米on,E., De Momi, E., and Ajoudani, A. (2021). “A human-aware method to plan complex cooperative and autonomous tasks using behavior trees,” in2020年IEEE-RAS 20人形机器人国际会议(机器人),德国慕尼黑,2021年7月19日—21日(IEEE),522 - 529。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+human-aware+method+to+plan+complex+cooperative+and+autonomous+tasks+using+behavior+trees&btnG=">谷歌学术搜索

Gassen, M。,Metzler, F., Prescher, E., Prasad, V., Scherf, L., Kaiser, F., et al. (2023). “I³few-shot行动:交互迭代改进分割”2023年第32 IEEE国际会议上机器人和人类互动交流(RO-MAN),韩国釜山,2023年8月28日—2023年8月31日。

谷歌学术搜索

Ghzouli, R。,Berger, T., Johnsen, E. B., Dragule, S., and Wa̧sowski, A. (2020). “Behavior trees in action: A study of robotics applications,” in《13 ACM SIGPLAN软件语言工程国际会议(纽约:计算机协会),196 - 209。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Behavior+trees+in+action:+A+study+of+robotics+applications&btnG=">谷歌学术搜索

Gustavsson, O。Iovino, M。Styrud, J。,年代米我th, C. (2021). Combining context awareness and planning to learn behavior trees from demonstration.一个rX我v预印本arXiv: 2109.07133。

谷歌学术搜索

汉族,Z。,G我ger, D., Allspaw, J., Lee, M. S., Admoni, H., and Yanco, H. A. (2021). Building the foundation of robot explanation generation using behavior trees.一个CM反式。人机交互。(THRI)10日至31日。doi: 10.1145 / 3457185

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Building+the+foundation+of+robot+explanation+generation+using+behavior+trees&btnG=">谷歌学术搜索

Helenon F。,Thiery, S., Nyiri, E., and Gibaru, O. (2021). “Cognitive architecture for intuitive and interactive task learning in industrial collaborative robotics,” in2021第五届国际会议上机器人技术、控制和自动化(纽约:计算机协会),119 - 124。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Cognitive+architecture+for+intuitive+and+interactive+task+learning+in+industrial+collaborative+robotics&btnG=">谷歌学术搜索

Iovino, M。,Doğan, f I。雷特,我。,年代米我th, C. (2022a). Interactive disambiguation for behavior tree execution.一个rX我v预印本arXiv: 2203.02994。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Interactive+disambiguation+for+behavior+tree+execution&btnG=">谷歌学术搜索

Iovino, M。,年代cukins, E., Styrud, J., Ögren, P., and Smith, C. (2022b). A survey of behavior trees in robotics and ai.机器人Aut。系统。154年,104096年。doi: 10.1016 / j.robot.2022.104096

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+survey+of+behavior+trees+in+robotics+and+ai&btnG=">谷歌学术搜索

Iovino, M。,Styrud, J。,F一个lco, P., and Smith, C. (2021). “Learning behavior trees with genetic programming in unpredictable environments,” in2021年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,西安,中国,2021年6月2021年5月30日- 05(IEEE),4591 - 4597。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+behavior+trees+with+genetic+programming+in+unpredictable+environments&btnG=">谷歌学术搜索

酒店,M。,Koert,D。(2021)。 “Guided robot skill learning: A user-study on learning probabilistic movement primitives with non-experts,” in2020年IEEE-RAS 20人形机器人国际会议(机器人),德国慕尼黑,2021年7月19日—21日(IEEE),514 - 521。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Guided+robot+skill+learning:+A+user-study+on+learning+probabilistic+movement+primitives+with+non-experts&btnG=">谷歌学术搜索

Laird, j·E。好运,K。,一个nderson, J., Forbus, K. D., Jenkins, O. C., Lebiere, C., et al. (2017). Interactive task learning.IEEE智能。系统。32,6-21。doi: 10.1109 / mis.2017.3121552

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Interactive+task+learning&btnG=">谷歌学术搜索

Lombardi, M。,Maiettini, E., Tikhanoff, V., and Natale, L. (2022). “Icub knows where you look: Exploiting social cues for interactive object detection learning,” in21国际会议2022年IEEE-RAS人形机器人(机器人),宜,日本,2022年11月28 - 30(IEEE),480 - 487。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Icub+knows+where+you+look:+Exploiting+social+cues+for+interactive+object+detection+learning&btnG=">谷歌学术搜索

Marzinotto,。,Colledanchise, M。史密斯,C。,Ögren, P. (2014). “Towards a unified behavior trees framework for robot control,” in2014年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,中国香港,2014年6月2014年5月31日- 07(IEEE),5420 - 5427。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Towards+a+unified+behavior+trees+framework+for+robot+control&btnG=">谷歌学术搜索

Mateas, M。,年代tern,一个。(2002). A behavior language for story-based believable agents.IEEE智能。系统。17日,39-47。doi: 10.1109 / mis.2002.1024751

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+behavior+language+for+story-based+believable+agents&btnG=">谷歌学术搜索

米灵顿医生,打电话我。,Funge, J. (2018).人工智能在游戏。波卡拉顿:CRC的新闻。

谷歌学术搜索

Nebehay G。,Pflugfelder, R. (2015). “Clustering of Static-Adaptive correspondences for deformable object tracking,” in2015年IEEE计算机视觉与模式识别会议(CVPR),波士顿,美国,2015年6月07-12(IEEE)。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Clustering+of+Static-Adaptive+correspondences+for+deformable+object+tracking&btnG=">谷歌学术搜索

帕克斯顿,C。,Hundt, A., Jonathan, F., Guerin, K., and Hager, G. D. (2017). “Costar: Instructing collaborative robots with behavior trees and vision,” in2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,新加坡,2017年6月29日2017年5月- 03(IEEE),564 - 571。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Costar:+Instructing+collaborative+robots+with+behavior+trees+and+vision&btnG=">谷歌学术搜索

Rangnekar,。Kanan C。,Hoffman, M. (2023). “Semantic segmentation with active semi-supervised learning,” in《IEEE / CVF冬季会议在计算机视觉的应用,Waikoloa,嗨,美国,2023年1月02-07,5966 - 5977。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Semantic+segmentation+with+active+semi-supervised+learning&btnG=">谷歌学术搜索

Ravichandar, H。,Polydoros, A. S., Chernova, S., and Billard, A. (2020). Recent advances in robot learning from demonstration.为基础。Aut启控制、机器人。系统。3,297 - 330。doi: 10.1146 / annurev -控制- 100819 - 063206

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Recent+advances+in+robot+learning+from+demonstration&btnG=">谷歌学术搜索

Robertson G。,Watson, I. (2015). Building behavior trees from observations in real-time strategy games. In2015年国际研讨会上创新智能系统和应用程序(INISTA),马德里,西班牙,2015年9月02-04(IEEE),1 - 7。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Building+behavior+trees+from+observations+in+real-time+strategy+games&btnG=">谷歌学术搜索

Safronov E。,Colledanchise, M。,N一个t一个le, L. (2020). “Task planning with belief behavior trees,” in2020年IEEE / RSJ智能机器人和系统国际会议(——),美国内华达州拉斯维加斯,2020年10月24日- 2021年1月24日(IEEE),6870 - 6877。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Task+planning+with+belief+behavior+trees&btnG=">谷歌学术搜索

Sagredo-Olivenza,我。,Gómez-Martín, P. P., Gómez-Martín, M. A., and González-Calero, P. A. (2017). Trained behavior trees: Programming by demonstration to support ai game designers.IEEE反式。游戏11日为5 - 14。doi: 10.1109 / tg.2017.2771831

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Trained+behavior+trees:+Programming+by+demonstration+to+support+ai+game+designers&btnG=">谷歌学术搜索

Scheper, k . Y。、Tijmons年代。,deVisser, C. C., and de Croon, G. C. (2016). Behavior trees for evolutionary robotics.一个rt如果。生活22日,23-48。doi: 10.1162 / artl_a_00192

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1162/artl_a_00192">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Behavior+trees+for+evolutionary+robotics&btnG=">谷歌学术搜索

Schrepp, M。,Hinderks, A., and Thomaschewski, J. (2017). Construction of a benchmark for the user experience questionnaire (ueq).在t。j .交互。多媒体Artif。智能。4,40-44。doi: 10.9781 / ijimai.2017.445

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Construction+of+a+benchmark+for+the+user+experience+questionnaire+(ueq)&btnG=">谷歌学术搜索

摘要,M。,X我一个n,Z., Huang, A., Kroemer, O., and Fragkiadaki, K. (2020). “Graph-structured visual imitation,” in机器人学习会议(PMLR),美国剑桥,马,2020年11月16日- 18日,979 - 989。

谷歌学术搜索

Styrud, J。,Iovino, M。,Norrlöf, M., Björkman, M., and Smith, C. (2022). “Combining planning and learning of behavior trees for robotic assembly,” in)举行2022机器人与自动化国际会议上(“国际机器人与自动化会议”,美国费城,宾夕法尼亚州,2022年5月汽车出行(IEEE),11511 - 11517。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Combining+planning+and+learning+of+behavior+trees+for+robotic+assembly&btnG=">谷歌学术搜索

Suddrey G。,T一个lbot, B., and Maire, F. (2022). Learning and executing re-useable behaviour trees from natural language instruction.IEEE机器人自动化。7,10643 - 10650。doi: 10.1109 / lra.2022.3194681

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+and+executing+re-useable+behaviour+trees+from+natural+language+instruction&btnG=">谷歌学术搜索

张,F。,Bazarevsky, V., Vakunov, A., Tkachenka, A., Sung, G., Chang, C.-L., et al. (2020). Mediapipe hands: On-device real-time hand tracking. arXiv preprint arXiv:2006.10214.

谷歌学术搜索

关键词:人机交互,交互的任务学习,行为树,从示范,学习机器人的任务,用户研究,故障检测,故障恢复

引用:Scherf L,施密特,Pal和Koert D(2023)交互式学习行为树的不完美的人类示威。前面。机器人。人工智能10:1152595。doi: 10.3389 / frobt.2023.1152595

收到:2023年1月28日;接受:2023年6月14日;
发表:2023年7月12日。

编辑:

曼努埃尔·朱利亚尼英国西英格兰大学

审核:

科斯塔斯Tzafestas希腊,雅典国立技术大学的
迈克尔Hagenow美国威斯康星大学麦迪逊分校

版权©2023 Scherf,施密特、Pal和Koert。这是一个开放分布式根据文章<一个rel="license" href="http://creativecommons.org/licenses/by/4.0/" target="_blank">知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:丽莎Scherf,<一个href="mailto:lisa_katharina.scherf@tu-darmstadt.de">lisa_katharina.scherf@tu-darmstadt.de

原始研究的文章

交互式学习行为树的不完美的人类示威

1介绍

2背景和相关工作

2.1行为树

2.2学习行为树

3交互式学习行为树从示威

3.1特征提取和分割

3.2 Backchaining连续前置和后置条件

3.2.1前置和后置条件提取从人类示威

3.2.2 Backchaining

3.3交互处理失败的情况下

3.3.1解决前提失败

3.3.2解决失败后置条件

3.3.3解决看不见的情况下额外的示威活动

4实验评价机器人垃圾处理的任务

4.1垃圾处理任务的设置

4.2初步研究确定缺陷在人类示威

4.2.1分析准备人类示威活动的变化

4.3评价互动BT学习机器人垃圾处理的任务

4.3.1行动训练分类器分类

4.3.2实验评价BT建设从人类示威

4.3.3互动失败案例处理的实验评价

4.3.4用户体验

4.3.5习得行为树的反应性

4.3.6包括额外的人类示威

5的结论

5.1限制

5.2未来的工作

数据可用性声明

道德声明

作者的贡献

资金

确认

的利益冲突

出版商的注意

引用

本文是研究课题的一部分

人也看了