跳转到主要内容

原始研究的文章

前面。机器人。AI, 2022年2月14日
秒。机器人视觉和人工识别
卷8 - 2021 | https://doi.org/10.3389/frobt.2021.725780

如何成为有用吗?支持行为和个性化人机协作

  • 1社会机器人实验室,计算机科学系,耶鲁大学纽黑文,美国CT
  • 2人机交互和机器人组,计算机科学系,博尔德科罗拉多大学博尔德有限公司美国

领域的人机协作(HRC)了大量近年来的进展。部分得益于先进的控制和感知算法,机器人开始在越来越多的非结构化环境中工作,在那里他们并排运行与人类,以实现共同的任务。然而,几乎没有取得任何进展向系统的发展真正有效支持人类,主动协作,能够自主照顾任务的一部分。在这项工作中,我们提出一个协作系统能够协助人类工人尽管操纵能力有限,不完整的任务模型,部分可观测性的环境。我们从高层框架利用信息,人类和机器人之间共享的层次模型,使透明的同龄人之间的同步和相互理解对方的计划。更准确地说,我们首先推导出部分可观测马尔可夫模型从高级任务表示;然后,我们使用在线解决蒙特卡罗计算短期视野robot-executable计划。由此产生的政策能够互动重新规划动态,动态错误恢复和识别隐藏的用户首选项。我们证明系统能够有力支持的人类现实的家具建设任务。

1介绍

最近的趋势在协作机器人正专注于复杂的人机环境中机器人灵活适应现代生产过程的快速变化,可以安全有效地与人类进行互操作。机器人感知,然而,尽管相当大的进展操纵和控制平台的健壮性和可靠性有所提高,机器人仍然用作仅接受人类的指令(美好的et al ., 2018)。即机器人协作(HRC)仍然是根本不平衡,大量的知觉、认知和操纵权力属于人类。为了填补这一空缺,近期作品已经开始调查真正的合作框架,允许人类和机器人关注任务的一部分,他们是最适合,和在需要的时候相互帮助布雷西亚沙,还2010;海耶斯和Scassellati, 2015年;El Makrini et al ., 2017;Roncone et al ., 2017;Chang和Thomaz, 2021)。出于这些结果,我们集中我们的努力在这个工作上的设计和实现机器人平台和交互,展示各种各样的支持行为mixed-initiative范式(艾伦et al ., 1999)。我们的目标是为机器人可以帮助人类当他们最需要支持,提供某种程度的知识和必要的任务和足够的系统的状态信息。支持性行为如移交任务组件,提供工具,把未使用的元素,大会期间举行部分恰好是非常有利于高效的完成任务,并在现代机器人平台领域的可能性。这样的行为也可能覆盖信息检索任务,如照明工作空间的一个区域,提供执行时间,或向用户任务计划的细节部分。对于本文的目的,我们做两个设计决策:1)我们关注如何最大化现有的机器人平台的有效性,即。,如何最大限度地利用有限的控制、感知和推理技能机器人为了最好地支持人类的伴侣;2)我们认为没有必要的机器人有详尽的知识的任务,也能够完全和全面感知环境。相反,系统提供有效的支持,部分可观测性状态的世界和人类伙伴的内部状态(由他们的信念和意图)就足够了。

合作的关键要求是同行能够共享一个共同的理解的任务(塞尔,1990;布雷西亚沙,还2010)。然而,一个重要的区别HRC,人与人之间合作是目前存在的人类和机器人的认知能力之间的差距。这使机器人到达这两个麻烦的任务理解人类,为人类的编码任务模型和不切实际的机器人可以利用。为了缓解这个问题,在这个工作我们提供共享任务建模通过分层模型(htm)。htm是方便的,因为他们是广泛用于高级任务计划(Erol et al ., 1994),他们已经接近人类的直觉(Roncone et al ., 2017),它们包含足够的信息对机器人高效和有效的支持。根据任务,HTM可能编码(先决条件和后置条件Georgievski Aiello, 2015),交际行为(美好的et al ., 2018),不同的运营商结合节点和子任务(海耶斯和Scassellati, 2016年)。值得注意的是,这些共享任务模型可以为人类提供一个衬底机器人通信,从而促进透明的同行之间的相互作用在任务执行(布雷西亚·霍夫曼和还,2004年;美好的et al ., 2018)。重要的是,机器人只会让意识到任务重要的一部分,既简化了任务计划和计划执行。我们交易完成知识的适应性和最优规划足够好的支持通过设计

总之,在本文中,我们的礼物小说框架能够有效地使机器人与支持性行为mixed-initiative范例。我们展示,据我们所知,第一个人权组织应用程序的实际实现机器人自主选择支持人类认为适当,并选择合适的支持行动中提供了许多。围绕着一个框架,我们的贡献:1)混合人机系统的性能最大化利用优越的知觉和操纵能力的人类,同时委托机器人是最适合的角色,即。自治的助手;2)系统地利用人类来改善任务估计,消除歧义不可见的状态,并使同伴之间的心智模式;3)动态地适应(隐藏)的用户首选项何时何地提供支持性行为,并修改其政策在执行期间遵守它。我们验证该方法在联合建设任务模拟生产过程典型的中小企业(中小企业),在重构性和易于部署等特性是至关重要的。

在下面几节中,我们将介绍读者艺术的状态和相关领域工作(第二节)。然后,我们详细建议的方法,把重点放在如何区分从主题的相关研究(第3节)。并给出了实验装置及实验设计在第四节,紧随其后的是结果(5节)和结论(第6节)。

2背景和相关工作

这项工作利用过去的研究领域的高级任务推理和表示。详细在第三节中,本文的核心贡献是一个系统能够human-understandable层次任务模型转换成robot-executable规划者能够在线与人类的互动。相反更传统的技术,利用完整的上下文中可观测性HRC应用程序(例如,Kaelbling和Lozano-Perez (2010);杜桑et al。(2016)故意),我们的系统优化其行为的基础上,人类和机器人之间的动态交互。我们明确地占世界的状态的不确定性(例如,任务进程,在工作区中可用的对象)以及(即在人类的伙伴。他们的信仰,意图和喜好)。为此,我们采用部分可观测马尔可夫决策过程(POMDP)计划最优行动的信仰空间。

在某种程度上,这种方法构建的结果和运动规划领域的任务(夯实,例如,Kaelbling et al。(1998);Kaelbling和Lozano-Perez (2013);Koval et al。(2016)]。事实上,类似的Kaelbling和Lozano-Perez (2013)我们发现近似解大型POMDP问题通过计划在信念空间结合即时再计划。然而,我们的工作不同于文学在很多方面:1)任务的层次自然不是POMDP模型中显式地处理,而是在更高层次的抽象(任务表示,cf。3.1节),这可以减少复杂性在规划阶段;2)我们封装复杂性相对于身体与环境交互远离POMDP模型,从而导致更广泛的适用性和易于部署如果与标准填塞方法;3)最值得注意的是,我们在人机交互处理不确定性而不是物理机器人与环境之间的相互作用。即定义域的应用提出了根本性的差异,有针对性的通过夯实技术;仍然没有共享共识在文献中如何模型一般人类的信念和意图的不确定性,尤其是和协作。我们的工作有助于填补这一空白。

规划技术可以使人类机器人协作任务的一个精确的模型是已知的,并且可能适应了隐藏的用户首选项Wilcox et al。(2012)。同样,部分可观测模型可以提供鲁棒性不可预测事件和不可见的状态。需要特别注意的是工作格帕兰和Tellex (2015),类似于本文中提出的方法,利用POMDP模型一个协作任务。事实上,POMDPs和类似的模型(如MOMDPs)已被证明改善机器人援助(霍利et al ., 2010)和团队效率(Nikolaidis et al ., 2015)相关的工作。这样的模型的任务是然而计算昂贵,而不是对用户透明。因此,一个重要的作品人机协作和物理领域的人机交互主要关注如何最好地接管的人类伙伴通过学习部分的任务繁重的人身安全或认知负荷。在这个角度来看,大多数的研究领域集中在学习新技能框架从人类示范(最晚完成日期,桌球et al。(2008)),有效地学习或模型任务表示(Ilghami et al ., 2005;Gombolay et al ., 2013;海耶斯和Scassellati, 2016年;杜桑et al ., 2016),或者解释人类伙伴的行为和社会信号(Grizou et al ., 2013)。

无论多么高效这样的模型表现出预期的行为,他们往往局限于简单的任务和不透明的人类同伴。事实上,证据从人与人之间的相互作用的研究已经证明了分享的重要性的精神任务模型来提高合作的效率(布雷西亚沙,还2010;Johnson et al ., 2014)。同样,研究交互显示,自主机器人任务共享的模型与人类同伴可以减少人类在合作期间的空闲时间(沙et al ., 2011)。没有启用机器人学习任务,其他方法演示了基本能力协作机器人动态适应他们的计划的任务为了适应人类的行为或不可预见的事件(布雷西亚·霍夫曼和还,2004年)。同样,丰富的任务模型还可以启用的优化决策等外在指标对人类的风险(布雷西亚·霍夫曼和还,2007年)或完成时间(Roncone et al ., 2017)。

我们的论文定位在这个越来越多的工作任务表示在HRC。我们坐在一个大文献在任务和运动规划和POMDP规划的目标设计新颖的交互。不幸的是,人们却很少关注的问题明确解决的问题有效地支持人类的伙伴,和只有少数作品在这个方向。海耶斯和Scassellati (2015)提出了一个算法来生成支持协作活动期间的行为,尽管它的结果在模拟方面的不足提供实际的示威活动的技术。Grigore et al。(2018)提出了一个模型来预测支持从观察到的行为示范轨迹和隐藏人类偏好,但结果不是人权组织实施和评估在一个完整的系统。另一方面,许多作品的引用以上达到一定量支持性行为没有明确的目标(布雷西亚·霍夫曼和还,2007年;沙et al ., 2011;格帕兰Tellex, 2015;杜桑et al ., 2016)。这些方法的局限性,如前所述,他们依赖于精确的任务知识并不总是可用的实际应用的复杂任务。在这项工作中,我们结合未知的(即人类偏好。,they are not directly provided to the system and they need to be inferred通过交互),而自动生成复杂的POMDP从最小的数据抽象(即。,the HTM) and forbidding the robot to explicitly communicate with the human (which we did in our prior work,Roncone et al。(2017))。我们所知,到目前为止还没有在人机协作工作解决问题的高层决策在协作场景中人类的这种程度的不确定性(人类的状态,人类的信仰,和人类偏好)。

3材料和方法

这项工作由作者利用先前的研究。在Roncone et al。(2017),我们展示了一个自动化技术可以动态生成机器人政策从人类可读的任务模型。然后利用这一框架的上下文中角色分配:我们的系统是有效的自主协商分配一个特定的子任务期间人类或机器人协作组装。在这个工作中,我们将这种方法扩展到更一般的优化问题为人类提供支持。类似于我们之前的工作(Roncone et al ., 2017),我们采用分层表示的任务在一个抽象层次适合天真的人类参与者和可以理解的机器人。模型提供的任务是先天的,但其他研究已经表明,可以学习任务模型从人类示威(花环和Lesh, 2003;海耶斯和Scassellati, 2014年)。然后我们把这个任务表示机器人政策利用POMDP模型的灵活性。这使得机器人在不确定环境下计划和明确的原因在较高的抽象层次。

值得注意的是,利用自适应规划POMDPs已经演示了在人机合作的背景下(例如,格帕兰和Tellex (2015);Nikolaidis et al。(2015)]。不确定性条件下的计划确实是一个主要的要求机器人跟人打交道。未来机器人平台是最有可能在高度结构化的环境中经营,甚至国家的艺术知觉系统不会提供完整的可观测性或精确的估计。在这项工作中,我们把这个想法的限制,因为我们约束框架近的条件盲目的。,机器人是不能够直接观察到世界的状态(任务进展、对象的位置等),和合作伙伴的状态(意图、偏好等)。这允许调查协调机制虽然通信和物理交互环境中。我们实现,通过扩大技术介绍Roncone et al。(2017),我们利用高级任务模型自动生成低级POMDP。然后我们演示如何生成的政策是成功的在现实的人类机器人协作提供支持。

3.1分层任务模型

层次结构形成一个吸引人的高层框架任务表示;特别感兴趣的是他们的能力,使组件的重用在不同的任务。此外,他们的抽象级别通常是接近人类的直觉:这有助于人机通信任务执行(Roncone et al ., 2017)。

图1描述了一些示例表示现实世界的建设任务。类似于海耶斯和Scassellati (2016),我们认为htm由原始的行动与运营商结合成我们称之为子任务提高抽象层次。在这项工作中,我们假设信息可用的一组基本操作已经机器人,我们代表复杂的任务上的这个动作词汇。我们还假设机器人这些原始行为有关的基础知识。这个范围可以从了解所需的工具和零件类型来执行一个动作,意识到这一事实支持人类通过举办一部分可能是有益的在复杂的执行。在我们以前的工作(Roncone et al ., 2017介绍了),我们延长了CC-HTM表示海耶斯和Scassellati (2016)通过引入一个新的替代运营商(∨图1)。它相邻顺序(→)和平行(为)的运营商。这组运营商证明适合捕捉合作的复杂性,以及任务执行的约束。例如,并行操作符允许两个同行同时执行两个不相交的子任务;相反,连续算子约束他们执行一个特定的序列。

图1
www.雷竞技rebatfrontiersin.org

图1。例子htm机器人装配任务。用户可以在任务执行检索信息,并询问系统任务进展,将由机器人在执行期间强调(青色块图)。子任务之间的操作类型(→对于连续任务,为并行任务,∨替代任务)也可用于用户检查。(一)HTM用于Roncone et al。(2017)(B)HTM用于这项工作。有关详细信息,请参阅第5.2节。

由于其简单,HTM模型可以方便地由非专业人员起草并保持直观的理解。以不同的方式从传统的控制方法(Kaelbling Lozano-Perez, 2010,2013年),他们的任务计划的高级的抽象还使解耦组件从机器人控制元件。这增加的灵活性,机器人只需要配备一些汽车原语来匹配组成HTM原子操作。从那以后,可以使用相同的汽车库原语,把一个新的任务的机器人。此外,很容易端口相同的任务相对运动和感知能力的新平台。

人权组织的一个主要的局限性HTM-like方法是不太可能的设计师能够编码的全部任务的实际组件的信息。虽然这种姿势限制的适用性技术的广度,我们认为,对于机器人提供有效的支持,不需要完美的知识任务执行的。部分HTM,特别是一个方便编码只关系到机器人的信息,是充分运作和与人类交互。例如,机器人不需要知道如何执行一个性交动作,也不如何看待人类性交的进展。对一个支持性的机器人来说,重要的是需要哪些对象完成行动说,人类可能促进如果机器人拥有稳定的一部分。正如3.2节中所讨论的,我们的POMDP模型补充部分知识的任务和国家世界与人类的互动合作伙伴。例如它可以取代缺乏有关子任务的知觉发展要求人类的子任务完成时,或直接移动到下一个子任务的子任务完成足够高的可能性。

3.2部分可观测马尔可夫决策过程

在这项工作中,我们使用POMDPs制定机器人面临的决策问题,给出一个任务来解决协作与人类和HTM正如3.1节中解释。POMDPs泛化的马尔可夫决策过程(mdp),其中只有部分可观测性的状态的过程。这个重要的放松的定义了一个MDP允许显著提高灵活性。尤其有关model-imperfect知觉和隐状态,如用户首选项。我们使用这种方法来优化任务的机器人的行为,尽管不完整的知识关于合作的动态和不确定性。

更准确地说,一个POMDP由7-tuple定义(年代,一个Ω,T,O,R,γ),年代是一组,一个是一组动作,T是一组状态转换概率,R:年代×一个→我R是奖励或成本函数,Ω是一组观察,O是一个分布的观察概率,γ∈[0,1]是折扣的因素。MDP类似,在任何给定的时间系统位于一个特定的状态年代年代,这对于POMDPs不是直接可见。代理的行为一个一个触发状态转换年代年代的概率T(年代年代,一个)和一个观察o∈Ω的概率O(o年代,一个),取决于新的状态年代。最后,代理获得奖励rR对采取的行动一个而在国家年代。POMDPs,代理上定义的政策是一个概率分布状态b,叫做信念状态,占这一事实代理人没有直接访问真正的状态年代。POMDP解算器的目标是找到一个政策π(b):b一个最大化未来贴现回报可能无限的地平线: E t = 0 γ t r t 。有趣的是,行为不改变底层的系统状态但只有信念状态也在这种背景下的价值。这证明了特别有利于人类合作,因为信息收集行为属于这种模式。例如,这种直觉可以用来模拟交际行为触发观测不确定性,消除歧义或支持低熵的信念与小的不确定性对人类和机器人。在现实中,通常是非常大的和连续的信念状态;我们使用政策上定义的历史之前的操作和观察,我们表示hH。有关更多信息,请参阅第3.4节对我们如何计算一个机器人政策从POMDP模型。

3.3限制模型

我们提出一个自动化的技术能够将任务级别的htm转换为低级机器人通过POMDPs政策。为此,我们把每个原始子任务(即每片叶子组成htm图1到一个小的、模块化的POMDP,我们称之为限制模型(RM)。不同于沙尼(2014)根据HTM, RMs由结构和运营商的性质,特别是:1)顺序操作将连接两个RMs转移概率为100%;2)一个替代操作两个子任务之间将机器人的分裂信念空间两个分支组成的两个RMs转移概率为50%;3)一个平行操作符将分叉的信念空间类似于2),但将增加100%的转移概率的子任务没有执行的每一个分支。总的来说,这种方法可以方便地减轻计划全球政策的计算复杂度高维状态和行动空间(由于htm的组合性质)通过专注于短期视野规划和当地政策的生成一个单独的子任务/ RM。即,每个RM大多是独立于其他的问题,可以进行隔离;然而,RMs仍彼此连接的结构HTM和代理利用这种结构保持信念,跨越子任务和RMs。我们认为这种能力是我们的核心贡献,它使人丰富的交互,都是透明的机器人和人类的政策。

图2描绘了RM发达的在这工作,信息状态空间(只有知觉影响噪声),信息用户首选项(不知道机器人),和信息的任务(先决条件和后置条件的形式、对象和工具需要,等等)。正如3.1节中提到的,它的行动空间对应的电机原语用于机器人。对这项工作的目的,我们认为以下支持性行为:1)等待为人类完成子任务;2)持有一个对象向人类提供支持;3)把对象(例如,组成部分,小零件,桶,或工具)在工作区;4)清理对象在不需要时从工作空间了。这些汽车原语是作为独立的控制器实现用自己的逻辑:例如,等待控制器利用沟通时为了让人类当前的操作已经完成之前的新子任务。采用模块化为了获得每个对象一个截然不同的动作。

图2
www.雷竞技rebatfrontiersin.org

图2。限制的简化表示模型(RM)用于这项工作。这个数字代表了RM子任务1他的继任者HTM子任务吗2。这可能是任何终止节点图1相联系通过一个顺序运营商;请参考3.3节来理解如何连接RMs的替代平行运营商)。为了简单起见,图只表示动作从子任务1。我们假设只有两个物体“A”和“B”,“一”是消耗的子任务(如组装的一部分将)在“B”是一个工具中使用任务(例如,螺丝刀)。每个节点代表一个国家,这是一个HTM子任务的分解,在工作区中每个可能的组合对象,用户偏好有关持有支持的行动。完整的连接图中代表行动的成功转变得到清理应用于对象“A”和“B”(导致没有一个观察)。当来自其他州(例如,把“A”已经在工作区),操作将会失败,错误观察,和国家不会改变。这些病例是由红色的连接。最后,虚线代表的联系持有等待行动,从任何代表状态,导致过渡到接下来的子任务对象的状态(即“B”只是礼物。该工具)。这意味着过渡发生即使机器人未能将所有所需的工具和部分:我们假设,人类就可以补偿机器人的失败。奖励会是最大的过渡状态,{一个,B}。为了简化图,我们省略了相对应的状态没有拿偏好。的图没有拿偏好几乎是相同的除了这一事实持有从这些国家,因此行动失败等待是唯一的行动过渡到下一子任务。

如前所述,一组可能的观测是最小的设计:一个没有一个观察(默认),加上一组错误观察返回通过机器人本身(例如,object-not-found,kinematic-error)或由人类伙伴(例如,错误的行动)。迫使系统处理一组有限的观察是有意的。我们另外诉诸直觉,当机器人的执行是正确的,人类的伙伴不应该担心加强与积极的参与到这是耗时和认知能力征税。相反,反馈来自人类的伴侣应该要么如果明确要求的机器人(例如,消除歧义的不确定性),或者机器人的决策——负面反馈应该用于更正行动的方向。

最后,状态空间年代是由一组因素的状态。它在概念上分为三个子空间:1)一个htm相关状态空间 属于任务进展,推导出直接从HTM表示。每个子任务的HTM(即。,each of the leaves) is assigned an unique state ;另外,最后一个状态 ̂ 与一个虚拟操作,要求机器人清理工作区。2)一个subtask-related状态空间定义在控制器执行每个子任务;组成部分相关的信息和工具(例如,如果工具出现在工作区中,或者部分被“消费”)。3)一个人类状态空间包含相关的信息对人类偏好,信仰和意图。如4.3节所示,在这个工作我们演示该方法能够适应用户首选项,即使它没有显式地意识到它们。

值得注意的是状态空间的大小年代随数量的增加呈指数增长的偏好和对象,如3.4节详细。为了占该方法的可伸缩性,我们定义了一个生成POMDP模型绕开问题的显式地定义完整的转移矩阵T。相反,详细图1,我们生成如下。每个动作影响对象改变状态代表其在工作区中存在:例如,将螺丝刀就可以在工作区有高概率。的等待行动,最终持有行动引发从一个HTM叶转换到下一个(根据他们的顺序序列,最后操作导致转换到特殊的状态 ̂ )。这种机制执行HTM状态之间的转换是透明地与人类同步。持有只触发的过渡状态,人类偏爱的控股和失败。此外,从一个叶转换到下一个状态表示的擦除所有的对象都被“消费”的子任务(通常,已使用的部分)。初始状态是由从采样初始子任务 0 ;对象的空间被认为是免费的,和人类的喜好是随机集。

有趣的是,设计选择限制的状态的感知世界的自然符合POMDP方法的统计性质。添加模型的不确定性,使其最终更健壮的实际合作互动的不确定性。不失一般性,RM可以允许意外转换为了占人类的行动由robot-e.g没有观察到。,当人类伙伴获取自己所需的组件,意想不到的失败,或失踪的对象。模型,并避免机器人停滞在一个错误的信念,我们引入低概率随机的所有状态之间的转换功能年代

最后,奖励中提供以下情况:1)当机器人提出,和人类倾向于持有;2)当有子任务及其继任者之间的过渡;2)在完成全部任务。此外,每个行动的机器人都有一个内在成本,负的奖励也给人类带来或干净的物体并没有照顾的机器人。表1总结了实验中使用的奖励从5.2节。

表1
www.雷竞技rebatfrontiersin.org

表1。奖励用于火车POMDP模型来源于HTM政策。

3.4 POMDP规划师

在这项工作中,我们实现一个基于POMCP规划师(银和Veness, 2010年),这是能够从生成模型和计划可以处理非常大的状态空间。这是通过信仰的蒙特卡罗估计使用一组粒子来表示每一个信仰。政策学是基于所有的访问历史,这对探索可行的州。

也就是说,n粒子可以近似认为国家如下:每一个粒子在一个给定的国家吗年代集体,他们代表的信念:

b = 1 n = 1 n δ 年代 , ( 1 )

在哪里δ年代指标函数的状态吗年代。伪码算法详细的信念是如何在实践中所示更新算法1;类似的过程适用于更新信念当机器人被观察的环境。在这种情况下,新国家,导致一个观察不同机器人获得然后丢弃。使用粒子信念表示和蒙特卡罗技术价值评估地址信念空间太大的问题要明确表示。人权组织在实际领域的详细5节通常是成千上万的州和数万行动,但似是而非的州的数量在任何时间是有限的。因此,代表 | 年代 | 维的信念是不可行的,但与此同时,尽管大状态空间,信仰是稀疏的。这是代表通过的粒子集,这符合自然稀疏表示。此外,这种方法只需要生成模式的转换,而不是代表完整的转移矩阵,其尺寸 | 年代 | 2 × | 一个 | × | O |

算法1算法模拟未来潜在假设机器人的行动的结果通过蒙特卡罗抽样。给定一个信念在当前状态,我们的方法反复样本粒子的集合在信仰和应用逻辑中所示图1粒子的状态保存(match_action (a)]。这一过程产生了一个新粒子添加到更新信念第二状态。一旦新信仰包含所需的粒子数,这个过程停止。

www.雷竞技rebatfrontiersin.org

规划的计算复杂度是绑定到一个exploration-exploitation权衡。即规划师探索树的分支系数等于行动的数量乘以数量的观察。因此,一个重要的参数来控制问题的复杂性是地平线上的探索。更准确地说,我们定义视界的转换的数量或数量HTM子任务探索占。这样的优化导致的局部最优决策问题固定数量的子任务。为了限制计算复杂度,也可以删除部分3.3节中介绍的特性转化为关心转换和observations-although它仍然发生在信仰的转变,因此仍然是所有可能的假设。通过这样做,我们防止规划师探索可行但罕见的事件。以防这些罕见的事件发生在生活与人类的互动,网络组件的规划师能够重新计算一个新政策。这使得算法健壮的意外事件而不惩罚勘探。我们人工交互的简化模型的离线规划步骤,但然后我们弥补其缺陷online-i.e。在任务执行过程中,。

4实现

4.1实验装置

巴克斯特的实验评价进行研究机器人(cf。图3使用机器人操作系统(ROS)奎格利et al ., 2009)。第三节中提到,尽管我们不关注改善的物理功能平台,我们利用先进的机器人感知和控制为了建立一组机器人的基本功能来有效地支持它的人类伙伴。由此产生的框架中,最初的开发Roncone et al。(2017)公开了一个高水平的行动图书馆,是唯一的接口,通过该接口POMDP规划师可以发送信息和检索信息有关——我们把这种巴克斯特系统和实验设置。

图3
www.雷竞技rebatfrontiersin.org

图3。人类的实验设置中,参与者从事联合建设任务与巴克斯特机器人。在图中,机器人是人类伙伴,支持其桌子的一条腿在人类性交。参见4.2节有关任务的信息。

系统介绍了Roncone et al。(2017)提供多个冗余的沟通渠道与人类互动的合作伙伴“对人类条款”Breazeal 2002)。列表中可用的层,这项工作我们雇佣的目的:1)TTS通道,用于口头与人类交互;2)一个反馈频道,机器人的头部显示所示,它提供了反馈对其内部状态和意图图3);3)一个错误通道,允许人类向机器人发送错误信息,并按下一个按钮触发机器人的末端效应器。此外,第四频道已经实现,的形式语音识别(STT)系统能够将人类的句子转换成robot-readable命令。它使用Google云STT API粘性(2021)结合文本解析器,它依赖于词典与人类参与者分享提前。

双臂能够执行精确,闭环视觉伺服任务由于一对相机末端效应器配备。左臂配备了真空夹具,能够接平面纹理不变,而正确的末端执行器是一个平行的电动爪执行更复杂的把握任务的能力。我们最大限度的使用双臂利用各自的化身:为此,两个不同的知觉系统曾(cf。图4)。左臂的感知系统(图4一)是由ARuco (Garrido-Jurado et al ., 2014),图书馆能够生成和检测基准标记,尤其适合被放置在平坦的表面。关心的右臂(图4 b),一个自定义的基于姿态估计算法实现。这是详细的下面的部分。

图4
www.雷竞技rebatfrontiersin.org

图4。的快照照相机从左和右端流效应器(A, B)。左臂使用基准标记跟踪系统基于Garrido-Jurado et al。(2014),而右臂实现HSV-based三维重建软件详细以下4.4.1节。见下面的4.2节的描述对象组合施工任务。

以下4.4.1 6 d对象从单一视图重建

我们认为这里的场景,在该场景中,末端执行器是垂直放置在池的对象,对象是在相机的视野。为了能够掌握各种物体平行夹安装在巴克斯特的右胳膊(见图4 b),执行以下两个步骤:首先需要对物体进行检测在相机视图中,然后他们的位置和姿态必须重建3 d操作空间的机器人。关心前,可以使用许多不同的计算机视觉技术。在这项工作中,我们利用Hue-Saturation-Value (HSV)颜色分割算法:也就是说,每个对象检测由于其在HSV颜色空间,和它的边界框存储供以后使用。检测到一个对象后,需要估计其3 d世界上构成参考系。这里我们假设对象的物理尺寸(宽度和高度)是已知的,和矩阵的内在动力和外在的参数K R | T 是可用的。值得注意的是,虽然K可以估计通过相机校正步骤之前,外在参数计算由于机器人的运动学和当前的联合配置的知识。在这种背景下,一个标准的视角转换可以应用为了估计点的三维位置 P w = X Y Z 1 T 在世界坐标系的对应的像点 p c = u v 1 T 在摄像机坐标系。以下方程是:

年代 p c = K R | T P w , ( 2 )

在哪里年代是一个比例因子1。视角转换方程来估计物体的质心的姿势迭代reprojection误差最小化的角落通过Levenberg-Marquardt算法(马夸特测定法,1963),使用OpenCV计算机视觉库(Bradski 2000)。

这里提出的技术的数量的估计和计算错误,特别是如果相机和所需的对象之间的距离是重要的。尽管如此,我们利用该算法用于视觉伺服设置,机器人的改进估计接近对象。,即使最初的姿势重建可能是有缺陷的,它不断更新的频率30 Hz和提炼,直到末端执行器到对象。作者承认可以使用更先进的三维重建技术,如利用深度传感摄像头正确校准对robot-e.g。,江泽民et al。(2011)。建议的解决方案的主要优势是然而采用紧凑、独立的评估步骤,不依赖于外部设备或繁重的校准。我们考虑我们的方法的一个重要的资产,促进重用和适用性新领域。

4.2实验设计

详细在章节1和4.1中,我们执行一个协作实验场景,人类参与者参与建设任务与巴克斯特机器人(见图3)。协作任务两个同行参与的共同建设一个小型表(cf。图5)。表是一个开源的一部分努力在HRC,提高标准化实验重现性(Zeylikman et al ., 2018)。它由五个结构元素(桌面和四条腿)和八个定制的3 d打印的联系(四个支架安全桌面的腿,而四脚是用来稳定结构)。总共16个螺丝需要组装。一把螺丝刀是唯一的工具需要构建表,有近似的大小21厘米×30厘米×15厘米时完成。特别注意被放置在任务的概念化。的主要目标是定制设计表人机协作实验呈现典型的约束。我们故意的目标是:1)易于重用;2)易于检索的组成部分;3)可伸缩性;4)接近与现实世界HRC应用程序,通常以一组复杂的行动是由人类的合作伙伴(这通常涉及工具的使用),和简单的机器人通常是分配给的任务。 The choices taken at the design stage allow us to comply with these requirements: the brackets used in this experiment belong to a larger library of linkages that has been made available online2,而表所示图5只有一个的许多设计允许我们的解决方案。

图5
www.雷竞技rebatfrontiersin.org

图5(一)表构建任务由一个胶合板桌面,四个销子,充当腿,四个支架(前3 d打印对象图)和4英尺(底部3 d打印对象图)。总共16个螺丝需要安全的零件。桌面和腿已经预钻孔方便组装。(B)建设任务完成后的表。组装所需的唯一工具是一把螺丝刀对象在底部图(红色)。

这项工作的目的,两个合作伙伴有不同,非重叠的角色:人类(以下简称构建器)负责执行操作,需要精细操作技能(例如,拧紧)或复杂的认知能力(如插入表的顶部到支架);机器人(也称为助手)要求建设者与下面描述的支持行动。重要的是,POMDP规划师的灵活性允许一定的松弛的角色分配和任务分配的设计。在第三节详细,规划师自动能够遵守系统的可能状态,并相应地重新计划。作为一个实际的后果,我们在允许人类参与者的位置负责一些支持性的行为如果他选择。我们披露的建设者,他们被允许检索部分和工具本身,即使我们不执行,也没有我们传达,这是她的职责的一部分作为实验的参与者。机器人辅助提供一组基本功能封装到一个图书馆高层行动。支持的行动已经指示执行以下:1)检索部分(例如,桌面、螺丝或腿);2)检索工具(即螺丝刀);3)清理工作场所的对象,不需要在未来;4)保持结构部分为了方便施工操作。 To comply with the Baxter’s limited manipulation capabilities, we positioned the smaller components (i.e., the screws and the 3D printed objects) in apposite boxes, to be picked up by the parallel gripper—seescrews_boxbrackets_box图4 b。同样,桌子的腿已经配备了一个特定的支持为了被左臂上的真空夹具(cf。图4一)。

值得注意的是这个特定的任务尤其有利的对于本工作由于其简单性和1)2)人类参与者需要多次执行相同的操作。我们故意设计了一个任务,不需要任何特殊技能的建设者,易于理解和记忆。虽然用户可能是乏味的,但是需要执行多个相同类型的行动是有益的展示第一节中介绍的在线用户适应能力。如下详细的5节,提出系统的资产是能够遵守builder的偏好:在这种情况下,机器人能够得到最终的负面反馈的错误行动,重新计划因此,和展览的影响这样的重新规划在执行相同的任务,即,w我thouth一个v在g to perform a new task from scratch.

4.3实验评价

我们证明该系统在生活与人类参与者的互动。机器人负责支持用户提供正确的支持行动在适当的时候由于部分的观察世界的状态,完成知识的任务执行计划,第三节中给出的HTM-to-POMDP规划师。我们设计了两种不同的实验条件,在一个受试的设计。所有的条件下,机器人的技能和能力不变化,但是用户首选项显式地改变,不知道机器人。即机器人暴露在改变系统状态的世界加上人类无法观察,但需要推断从生成器通过积极收集信息,或通过建立反馈来自她。我们的实验是为了评估以下假设:

•H1。提出的不确定情况下的操作系统能够和最大化回报甚至在高组合的复杂性;

•H2。机器人能够个性化其行为在不同人的偏好和对错误再计划,从而最大化的能力支持人类的伙伴。

在下面几节中,我们详细描述了两种实验条件。请参考第五节的比较评价。

4.3.1条件全面支持

在这种情况下,机器人预计支持人类最好的它的功能,是允许执行所有的操作。首先,介绍了施工平台和建设任务。实验者然后继续说明巴克斯特的能力(即。,prov我ding parts, retrieving tools, holding objects and cleaning up the workspace) and the interaction channels the human is supposed to employ during task execution. Next, the experimenter communicates to the user that the robot is supposed to perform all the supportive actions by itself, but also that the participant is free to take charge of some actions if she so chooses or if the robot fails. No information is given in terms of what to expect from the robot, or how the human-robot interaction is supposed to occur.

4.3.2条件B-Adaptation用户首选项(不需要持有行为)

这个条件是相同的人类和机器人之间的交互条件a .正如4.3节中详细的自变量我们在受试实验调整用户偏爱关心支持人类参与者预计的机器人。在这个场景中,人类工人被告知不愿意持有的部分机器人而搞砸。由于机器人是没有意识到这一点,它可能仍然执行保持动作即使不是必需的。如果这一切发生的时候,人类指示负奖励巴克斯特机器人通过发送一个错误的信号。

5个结果

框架下详细的部分3和4.1已经发布开源LGPLv2.1许可证,GitHub是免费的3。基于许多c++ ROS包已经可用robot-related软件,而计划已经被封装成一个ROS-independent Python包。在下面几节中,我们评估建议的方法。首先,我们执行一系列离线实验来评估该模型是否能得到有效的政策反对各种任务和实验条件。我们表明,我们的方法优于特别政策模拟交互从这些模型(5.1节)。最后,我们验证了系统在生活与人类参与者的互动。我们将演示如何计算,使有效的任务政策支持行为协同装配任务期间(5.2节)。

5.1综合评价模拟

在本节中,我们提出一个定量评价的方法在离线探险。为此,我们专注于最重要的两个方面参与有效交互的设计:1)我们的方法对各种任务结构的灵活性(5.1.1节)2)其适应性定制的用户首选项(5.1.2节)。

5.1.1任务结构

为了证明该方法能够提供有效的支持,在现实世界的人类伙伴协作任务,我们评估这三个任务模型,来自不同的htm。htm不同数量的子任务解决,和子任务之间的关系运算符的类型。因此他们说明我们可以推出政策从各种任务模型。本节所有任务模型的特点是原始子任务需要的组合:1)一套工具,机器人需要最初带,然后干净的任务;2)一个共享的支持行动“一个”;3)另一个支持的行动,可以是“b”或“c”。让表示“B”的子任务,包括支持行动”一个”和“b”和“C”一个涉及的一个”和“c”。第一个HTM,表示顺序任务,由一系列子任务“B”。第二个任务模型表示统一的;它由另一个24子任务之间,由一个四子任务序列,每个类型的“B”和“C”。换句话说,对于每个事件的当前任务是任何序列中随机选择三个子任务类型的“B”和“C”。过去的HTM,表示替代任务,是一个只有4四子任务序列之间的替代:“BCCC”、“BBBB”,“英”,“届”。因此介绍了所需的连续动作之间的依赖关系。

我们比较建议的方法对两个手工编码策略的性能。一个随机政策最初将所有所需的工具(这一直是一个成功的策略);然后采取行动的一个“行动”之间,之后随机选择b”和“c“直到有一成功。它完成清洁工作。当观察一个失败(除了b”和“c”),简单地重复过去的政策行动。的重复政策而设计的顺序的任务。类似于随机政策,它开始通过提供所需的工具,然后重复操作的一个”和“b20次,然后清理工作区。类似于随机,它重复失败的行动,直到成功。图6介绍了平均回报每个策略的三个条件。虽然重复是非常有效的吗序列的任务,是不适合其他人和其他两个任务失败。的随机在所有,但政策是次优的统一的任务,但仍然可以解决一些故障。另一方面,POMCP政策,从每个任务模型匹配或优于其他政策,提供全力支持H1。这个实验也表明,我们可以利用任务结构自动知识获取各种有效政策任务的特点是广泛的组合。

图6
www.雷竞技rebatfrontiersin.org

图6。的POMCP政策匹配或优于特别策略对三种不同的htm (顺序,统一的,替代的任务)。结果返回超过100的分布评价从两个手工编码策略集(重复随机),以及POMCP来源于POMDP政策。在过去的两个任务,重复政策失败在大多数情况下,停在地平线上的一个上界的一集。得到一个非常低的平均回报(300和400−−之间),图中省略了更好的比较其他政策。

5.1.2用户首选项

和动态适应能够满足到自定义用户首选项是一个机器人的关键,需要为其合作伙伴提供最好的支持。一个提示和个性化反应可以更自然的交互,认知要求执行,最终导致一个更有效的合作。为此,我们提出一个系统,成功能占用户首选项。正如4.3节中详细,参与者可以选择机器人是否应该提供支持,在人类性交的结构。我们比较我们的方法对两个硬编码策略:最积极的策略(即。,总是提供支持)和最保守的一个(即。,从不提出支持人类)。图7收集6000个模拟交互作用的结果,人类偏爱“持有”pH范围从0.0(“我从来没有想要机器人持有”)到1.0(“我总是想让机器人在需要时”)。两个硬编码策略只是最优匹配时预期的用户偏好;在中间场景中,其性能将迅速降低实际用户偏好的不确定性增加。相反,我们的系统能够适应人类的伴侣是否会像机器人提供持有支持与否,并优于这两种策略在大多数条件平均回报率高。重要的是,POMCP政策能够动态地适应在中间的情况下:当持有的概率偏好pH在极端情况下(即之间。0.0 <pH< 1.0),用户可以自由地改变他们的想法和信号这个机器人通过一条错误消息。这些结果验证H2在模拟;我们参考5.2节的读者类似的结果在现实世界中。

图7
www.雷竞技rebatfrontiersin.org

图7。提出了战略的比较(红色)与“总是持有”(绿色)和“从未持有”(蓝色)策略在模拟交互有不同程度的用户首选项。对于每个人,平均回报值和标准偏差的概率偏好“持有”pH所示。这三个策略测试单个子任务(见“组装的腿”图1底部),20个不同的值pH(即,从0.0。,the human never wants the robot to hold) to 1.0 (i.e., the human always like the robot to hold). For each of the 20 different preferences, the results are averaged from 100 simulated interactions, for a total of 6,000.

5.2生活与人类参与者的互动

5.1节中描述的合成实验证明算法的能力产生良好的奖励在一系列场景,包括变量任务复杂性(H1)和用户首选项(H2)。然而,这些实验不验证算法在实际的人机交互,这是大多数之前停在工作。虽然仿真表明该算法成功地达到高回报,他们甚至不能保证这些奖励准确模拟或关联的实际效用的机器人支持人类在现场互动。在本节中,我们解决这个问题通过一个实验场景,人类参与者从事家具的联合建设的巴克斯特机器人。

我们建设任务详细的4.2节中定义为一个八子任务序列,是谁的HTM所示图1,底部。图中的所有子任务描述需要高灵活性和感知能力,因此需要由人类建造者。对于每一个四条腿的,建造者负责首先拧紧联系(托架和脚)到腿上,然后用螺钉固定架到桌面。正如4.2节中介绍的,检索部分和工具从各自池设计的支持行动辅助机器人可以选择。此外,巴克斯特的机器人被允许持有部分为了促进参与者的工作,并清理工作站当它认为合适的。关于实际的交互的更多信息,我们参考读者附带的视频,总结了图8(完整的决议youtu.be / OEH-DvNS0e4)。

图8
www.雷竞技rebatfrontiersin.org

图8。快照期间获得的协同装配条件的表一个(全力支持,顶部)和条件B(不需要持有,底部)。条件(两者)巴克斯特:1)提供了参与者的工具;2)机器人支持人类,桌面,而人类螺丝腿到位;3)用户已经完成了他的任务,观察机器人解放联系的工作区从盒子里。条件B (D-F):1)用户信号保持动作的机器人不需要按错误的按钮,和机器人承认通过信号的显示,它收到这信息;2)持有行为是不执行,但其他操作如腿仍执行的检索;3)人类参与者完成任务的执行没有机器人的帮助下,按照要求。

系统评估了四个参与者;每个参与者执行任务在两个条件A和B,在受试的设计(参见4.3节描述的实验条件)。在所有的示威活动执行,机器人成功地为人类提供支持与最小的开销:如图所示表2,用户反馈是最少的,只有必要的机器人错误。在所有,我们注册一个减少任务完成时间(平均13.2%)条件a。也就是说,当机器人是人类可以提供更多的支持,因而更多的干预的任务,团队的整体性能提高尽管机器人操作在高不确定性(从而进一步验证H1)。

表2
www.雷竞技rebatfrontiersin.org

表2。评价机器人协作。

更有趣的是评估计划能够在多大程度上从机器人故障和恢复政策错误的难以察觉的人类偏好(H2)。为此,我们强调两个示例轨迹表3。它们对应于实际的轨迹,从条件之一,那里的机器人将持有的部分,和一个从条件B,用户将信号她的偏好不希望部分举行。4.1节中描述的交互通道允许一定程度的灵活性对担忧什么类型的交流构建器和辅助可以接触到。特别是,巴克斯特允许收集用户的偏好信息通过持有行动为了更好地估计这个变量通过来自用户的反馈。这最终将其不确定性,消除歧义,因为建筑商沟通失败,以防她偏好是一个“没有拿。“对于这项工作的目的,我们检查这三个典型的交互,color-highlighted表3与相应的优先更新第三列的每个表:

表3
www.雷竞技rebatfrontiersin.org

表3。例子的历史在交互操作和观察,两个条件。

- - - - - -Robot-initiated故障检测:第三节中描述,机器人是不允许直接感知世界的状态和任务的进展。然而,它是可能的检测使用自己内部的传感器操作失败。如果是这种情况,例如,当机器人试图拿起螺丝刀,但夹为空,系统能够重新计划执行和重新安排行动在稍后的阶段。强调了在表3,蓝色的序列,机器人并不一定重复相同的操作后检测到故障时,因为其他操作可能有更高的优先级。

- - - - - -成功举办行动(绿色序列表3):机器人始于一个非零的评估 p H ̂ 概率的偏好。在执行一个“持有”行动,如果它不接收来自用户的负面反馈(观察:“没有一个”), p H ̂ 增加,因为它变得更有可能,建造者希望机器人。这是与后续的进一步实施“持有”的行动。

- - - - - -用户发起的失败B:在条件,系统经历一个用户发起的失败而提议的部分(观察:“失败,”红序列表3)。因此,保持行动的概率分布 p H ̂ 减少,未来的机器人将不执行该操作。为用户而不是持有部分,它将等待她完成的行动,并将继续下一步,当她完成子任务通信。

最后一个方面值得详细说明的事实是,为了使机器人被视为一个有效的合作者,在互动的过程中系统的透明度是至关重要的。人类需要能够访问(在某种程度上)机器人的内部状态是什么,它认为什么任务进展和,重要的是,它打算如何行动。未能提供透明度导致用户不满和工作效率低下。在这种背景下,重叠,多余的交互渠道(4.1节)。在保证都是有益的一个透明的两个合作伙伴之间的信息交换。这是特别重要的意外偏离机器人的名义行动过程中,机器人的失败。对于robot-initiated失败和人类触发误差信号(图8 d-f),用户对其的系统能够承认错误状态通过巴克斯特的头上显示话语和/或演讲。通过这种方式,用户总是可以明显看出,机器人失败,最终他们失败的原因(以防失败不是robot-initiated)。

6讨论和未来的工作

在这项工作中,我们提出一个系统能够将高级层次任务表示转换为低级机器人政策。我们将演示健壮性与不同复杂性任务陈述,以及一定程度的定制任务相关变量如用户首选项和任务完成时间。此外,我们提供我们的技术的示范在mixed-initiative人机协作。伴随明显的视频中,人类保持完全控制整个任务执行,但机器人的独立行为,预测人类需求,不等待被告知要做什么。我们运营的模式既不是尝试实现理想的系统永不失败(或不考虑失败的发生),也不会形成的环境,这样可以阻止机器人失败。相反,我们绝对信奉这样的理念:机器人的感知和行为本质上是错误的,错误在操作是可能的将发生。我们目前不打算的方法与优化生产线,需要花几个月的时间来设计,但提供了一个易于部署,可重构的模式,适合于中小企业。

据我们所知,这是第一次尝试工作实用支持行为示范一个现实的人机协作场景。此外,我们从根本上不同于过去的研究主题,在协作通常转化为人类和机器人的任务并行,不重叠的子任务和结构化,事务交互。相反,我们的实验显示了一个完全集成的交互,人类和机器人身体参与共享环境合作

更广泛的评价提出了框架的可伸缩性更广泛领域的应用是未来工作的主要方向。虽然部分所示的模拟交互5.1.1理论上证明了其可行性,多少还有待观察的方法在实践中可以扩展到更复杂的任务。特别是,我们计划利用的灵活性HTM表示:1)模型更复杂的任务结构;2)该方法适用于不同的交互模式。此外,我们之前的研究中引入了一个模型,允许机器人能够有效地利用基本的沟通能力以目标任务分配和信息收集的问题(Roncone et al ., 2017;美好的et al ., 2018)。将这一层次的互动在当前设置也是一个收敛的方向。

在这项工作中,我们假定高水平表示我们的系统依赖于可用的或容易产生。然而未来的工作问题是探讨这一假设在各种应用领域,以及是否足够精确的模型可以从语音指令或用户示威。我们的方法也依赖于现有控制器支持行动。有趣的方向,未来的工作将需要为用户的能力来教新原语机器人(例如,通过示范),然后将这些原语结合到更复杂的任务模型。

时需要考虑的一个重要因素应用高级任务规划者HRC是没有理论保证奖励正确参数中设置系统近似机器人的行为的价值给用户。我们认为这是一个研究人员面临的主要障碍,在应用研究POMDP计划HRI。始终与以前的工作,在本文中,我们已经决定专注于任务完成为主要指标来衡量协作性能(如如所示,Roncone et al。(2017));然而,可能会有其他的价值来源支持,并不直接测量完成时间减少认知负荷或身体疲劳的人类伙伴。因此,奖励函数显式的设计与任务完成时间,直接或间接。这个方便允许设置奖励参数根据经验措施,构成一个有前途的校准过程的系统。一些奖励参数直接关系到测量时间(如奖励推进到下一个识别的子任务的子任务的平均完成时间,或相关的奖励抓取工具的时间人类获取)。别人可以估计间接(例如,奖励尊重持有偏好可以通过测量计算用户多少时间准备牺牲他们的偏好之后)。探索这是否构成一个健康有效的校准机制超出了本文的范围,但是在未来的工作探索的重要途径。

总而言之,我们提出了一个交互式的和有效的在这个工作HTM-to-POMDP方法打开门到广泛的用户研究来评估的质量和有效性人类和机器人之间的交互。proaction机器人合作期间所示的程度可以显著降低门槛对于非专业用户,在用户可以立即看到机器人的能力,没有把高估或低估它的技能。在这方面,一个广泛的用户研究将有助于巩固这种直觉,和评估拟议的系统是多么有用为天真的用户在设定的期望。最后,尽管我们之前的工作显示通用用户偏好向我们的系统(Roncone et al ., 2017),一个更广泛的用户研究证明统计学意义而言,减少压力和认知负荷给用户。重要的是,这也将允许强调潜在的摩擦,可以利用更好的设计人机交互。

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:https://github.com/ScazLab/human_robot_collaborationhttps://github.com/ScazLab/task-models

道德声明

涉及人类受试者的研究回顾和耶鲁大学的机构审查委员会批准。患者/参与者提供了他们的书面知情同意参与这项研究。

作者的贡献

OM和基于“增大化现实”技术的概念和设计研究,开发和发布的软件,并分析结果。OM、AR和BS的写的部分手稿,导致修改,批准提交的版本。

资金

这项工作是由美国海军研究办公室(ONR)奖# n00014 - 18 - 1 - 2776年,美国国家科学基金会(NSF)资助下号。2033413,1955653,1928448,1936970,1813651,πScassellati,和陆军研究实验室在格兰特nos w911nf - 21 - 2 - 0290, w911nf - 21 - 2 - 0123,πRoncone。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1请参考哈特利,Zisserman (2004)有关细节的视角转换问题的更多信息。

2scazlab.github.io / HRC-model-set主机的CAD模型,为3 d打印技术规范,教程对于装配实例设计和参考链接购买部分。

3github.com/scazlab/human_robot_collaboration主机的源代码机器人控制器,而github.com/ scazlab /任务模型主机HTM POMDP规划师。

引用

艾伦,j·E。,Guinn, C. I., and Horvtz, E. (1999). Mixed-initiative Interaction.IEEE智能。系统。14、5。doi: 10.1109/5254.796083

CrossRef全文|谷歌学术搜索

桌球,。,Calinon, S., Dillmann, R., and Schaal, S. (2008).机器人编程的示范。柏林,海德堡:激飞柏林海德堡,1371 - 1394。doi: 10.1007 / 978 - 3 - 540 - 30301 - 5 - _60

CrossRef全文|谷歌学术搜索

Bradski, g (2000)。OpenCV库。象j . Softw博士。工具

谷歌学术搜索

美好的,J。,Mangin, O., Roncone, A., Widder, S., and Scassellati, B. (2018). “Situated Human–Robot Collaboration: Predicting Intent from Grounded Natural Language,” in智能机器人和系统(——),2018年IEEE / RSJ国际会议(IEEE)

谷歌学术搜索

Breazeal, c (2002)。设计社交机器人麻省理工学院出版社

谷歌学术搜索

常,m . L。,Thomaz, A. (2021). “Valuable Robotic Teammates: Algorithms that Reason about the Multiple Dimensions of Human-Robot Teamwork,” in同伴的2021 ACM和IEEE国际会议在人机交互,580 - 582。

谷歌学术搜索

El Makrini我。,Merckaert, K., Lefeber, D., and Vanderborght, B. (2017). “Design of a Collaborative Architecture for Human-Robot Assembly Tasks,” in2017年IEEE / RSJ智能机器人和系统国际会议(——)(IEEE),1624 - 1629。doi: 10.1109 / iros.2017.8205971

CrossRef全文|谷歌学术搜索

Erol, K。,Hendler, J., and Nau, D. S. (1994). “HTN Planning: Complexity and Expressivity,” in人工智能在第十二国家会议(aaai - 94)(西雅图,华盛顿:AAAI新闻),1123 - 1128。

谷歌学术搜索

加。,Lesh, N. (2003).学习层次任务模型演示三菱电机研究实验室

谷歌学术搜索

Garrido-Jurado, S。,Muñoz-Salinas, R., Madrid-Cuevas, F. J., and Marín-Jiménez, M. J. (2014). Automatic Generation and Detection of Highly Reliable Fiducial Markers under Occlusion.模式识别47岁,2280 - 2292。doi: 10.1016 / j.patcog.2014.01.005

CrossRef全文|谷歌学术搜索

Georgievski,我。,一个我ello, M. (2015). Htn Planning: Overview, Comparison, and beyond.Artif。情报222年,124 - 156。doi: 10.1016 / j.artint.2015.02.002

CrossRef全文|谷歌学术搜索

Gombolay, M。威尔科克斯,R。,沙,J。(2013)。“快速调度的多机器人团队Temporospatial约束”程序的机器人:科学和系统,柏林,德国。doi: 10.15607 / rss.2013.ix.049

CrossRef全文|谷歌学术搜索

咕,(2021)。谷歌云语音API。Availableat:https://cloud.google.com/speech/docs/

谷歌学术搜索

格帕兰,N。,Tellex, S. (2015). “Modeling and Solving Human-Robot Collaborative Tasks Using POMDPs,” inRSS为人机通信模型学习研讨会

谷歌学术搜索

Grigore E。,Roncone,。,Mangin, O., and Scassellati, B. (2018). “Preference-Based Assistance Prediction for Human–Robot Collaboration Tasks,” in智能机器人和系统(——),2018年IEEE / RSJ国际会议(IEEE)

谷歌学术搜索

Grizou, J。,Lopes, M., and Oudeyer, P.-Y. (2013). “Robot Learning Simultaneously a Task and How to Interpret Human Instructions,” in发展和学习和表观遗传机器人(ICDL), 2013年IEEE第三联合国际会议(IEEE),1 - 8。doi: 10.1109 / devlrn.2013.6652523

CrossRef全文|谷歌学术搜索

哈特利,r . I。,Z我年代年代erman, A. (2004).计算机视觉中的多视图几何。第二版。剑桥大学出版社。0521540518。

谷歌学术搜索

海耶斯,B。,年代c一个年代年代ellati, B. (2016). “Autonomously Constructing Hierarchical Task Networks for Planning and Human-Robot Collaboration,” in机器人与自动化国际会议上)举行(“国际机器人与自动化会议”。doi: 10.1109 / icra.2016.7487760

CrossRef全文|谷歌学术搜索

海耶斯,B。,年代c一个年代年代ellati, B. (2014). “Discovering Task Constraints through Observation and Active Learning,” in智能机器人和系统(——),2014年IEEE / RSJ国际会议,4442 - 4449。doi: 10.1109 / iros.2014.6943191

CrossRef全文|谷歌学术搜索

海耶斯,B。,年代c一个年代年代ellati, B. (2015). “Effective Robot Teammate Behaviors for Supporting Sequential Manipulation Tasks,” in智能机器人和系统(——),2015年IEEE / RSJ国际会议。doi: 10.1109 / iros.2015.7354288

CrossRef全文|谷歌学术搜索

霍利,J。,Poup一个rt,P。Bertoldi, a . v。克雷格,T。,Boutilier, C., and Mihailidis, A. (2010). Automated Handwashing Assistance for Persons with Dementia Using Video and a Partially Observable Markov Decision Process.电脑粘度形象的理解114年,503 - 519。doi: 10.1016 / j.cviu.2009.06.008

CrossRef全文|谷歌学术搜索

霍夫曼,G。,Breazeal, C. (2004). “Collaboration in Human-Robot Teams,” in张仁的Proc. 1智能系统技术设计。doi: 10.2514/6.2004 -6434

CrossRef全文|谷歌学术搜索

霍夫曼,G。,Breazeal, C. (2007). Cost-Based Anticipatory Action Selection for Human-Robot Fluency.IEEE反式。机器人。23日,952 - 961。doi: 10.1109 / tro.2007.907483

CrossRef全文|谷歌学术搜索

Ilghami, O。,Munoz-Avila, H., Nau, D. S., and Aha, D. W. (2005). “Learning Approximate Preconditions for Methods in Hierarchical Plans,” in美国22日国际会议上机器学习(中国上海:ACM),337 - 344。doi: 10.1145/1102351.1102394

CrossRef全文|谷歌学术搜索

江,Y。,Moseson, S., and Saxena, A. (2011). “Efficient Grasping from RGBD Images: Learning Using a New Rectangle Representation,” in2011年IEEE机器人与自动化国际会议上,3304 - 3311。doi: 10.1109 / icra.2011.5980145

CrossRef全文|谷歌学术搜索

约翰逊,M。,Br一个dshaw, J. M., Feltovich, P. J., Jonker, C. M., Van Riemsdijk, M. B., and Sierhuis, M. (2014). Coactive Design: Designing Support for Interdependence in Joint Activity.j .人机交互3,43 - 69。doi: 10.5898 / jhri.3.1.johnson

CrossRef全文|谷歌学术搜索

Kaelbling, l . P。利特曼,m . L。,Cassandra, A. R. (1998). Planning and Acting in Partially Observable Stochastic Domains.Artif。情报101年,99 - 134。doi: 10.1016 / s0004 - 3702 (98) 00023 - x

CrossRef全文|谷歌学术搜索

Kaelbling, l . P。,Lozano-Pérez, T. (2010). “Hierarchical Task and Motion Planning in the Now,” in学报第一AAAI会议桥接任务和运动计划之间的差距(加拿大温哥华:AAAI新闻),33-42。AAAIWS 10-01。

谷歌学术搜索

Kaelbling, l . P。,Lozano-Pérez, T. (2013). Integrated Task and Motion Planning in Belief Space.Int。j .机器人Res。32岁,1194 - 1227。doi: 10.1177 / 0278364913484072

CrossRef全文|谷歌学术搜索

Koval, m . C。,Pollard, N. S., and Srinivasa, S. S. (2016). Pre- and post-contact Policy Decomposition for Planar Contact Manipulation under Uncertainty.Int。j .机器人Res。35岁,244 - 264。doi: 10.1177 / 0278364915594474

CrossRef全文|谷歌学术搜索

马夸特医生,d . w . (1963)。非线性参数的最小二乘估计的算法。j . Soc。印第安纳州,达成。数学11日,431 - 441。doi: 10.1137 / 0111030

CrossRef全文|谷歌学术搜索

Nikolaidis, S。Lasota, P。,R一个makrishnan, R., and Shah, J. (2015). Improved Human-Robot Team Performance through Cross-Training, an Approach Inspired by Human Team Training Practices.Int。j .机器人Res。34岁,1711 - 1730。doi: 10.1177 / 0278364915609673

CrossRef全文|谷歌学术搜索

奎格利,M。,Conley, K., Gerkey, B. P., Faust, J., Foote, T., Leibs, J., et al. (2009). “ROS: an Open-Source Robot Operating System,” inICRA研讨会开源软件

谷歌学术搜索

Roncone,。,Mangin, O., and Scassellati, B. (2017). Transparent Role Assignment and Task Allocation in Human Robot Collaboration.IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”。doi: 10.1109 / icra.2017.7989122

CrossRef全文|谷歌学术搜索

塞尔,j . (1990)。集体的意图和行动,19岁。麻省理工学院出版社,401 - 416。

谷歌学术搜索

沙,J。,Breazeal, C. (2010). An Empirical Analysis of Team Coordination Behaviors and Action Planning with Application to Human-Robot Teaming.嗡嗡声。因素52岁,234 - 245。doi: 10.1177 / 0018720809350882

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

沙,J。,Wiken, J., Williams, B., and Breazeal, C. (2011). “Improved Human-Robot Team Performance Using Chaski, a Human-Inspired Plan Execution System,” in学报第六届国际会议上人机交互(ACM),29-36。doi: 10.1145/1957656.1957668

CrossRef全文|谷歌学术搜索

沙尼,g (2014)。基于任务的分解消化POMDPs。IEEE反式。Cybern。44岁,208 - 216。doi: 10.1109 / tcyb.2013.2252009

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

银,D。,Veness, J. (2010). “Monte-Carlo Planning in Large POMDPs,” in神经信息处理系统的进步23。编辑j·d·拉弗蒂威廉姆斯c . k . i, j . Shawe-Taylor r·s·泽梅尔和a . Culotta (Curran Associates Inc .)),2164 - 2172。

谷歌学术搜索

杜桑,M。据,T。,Mollard, Y., Wu, L. Y., Vien, N. A., and Lopes, M. (2016). “Relational Activity Processes for Modeling Concurrent Cooperation,” in2016年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,5505 - 5511。doi: 10.1109 / icra.2016.7487765

CrossRef全文|谷歌学术搜索

威尔科克斯,R。,Nikolaidis, S。,沙,J。(2012)。优化自适应人机交互的时间动态组装生产。Proc。机器人:科学。系统。doi: 10.15607 / RSS.2012.VIII.056

CrossRef全文|谷歌学术搜索

Zeylikman, S。•韦德,S。,Roncone,。,Mangin, O., and Scassellati, B. (2018). “The HRC Model Set for Human-Robot Collaboration Research,” in智能机器人和系统(——),2018年IEEE / RSJ国际会议(IEEE)。doi: 10.1109 / iros.2018.8593858

CrossRef全文|谷歌学术搜索

关键词:人机协作(HRC),部分可观测马尔可夫决策过程(POMDP),部分可观测的蒙特卡罗规划、分层任务网络(HTN)规划、人机交互(HRI)

引用:曼京O, A和B Scassellati Roncone(2022)如何成为有用吗?支持行为和个性化人机协作。前面。机器人。人工智能8:725780。doi: 10.3389 / frobt.2021.725780

收到:2021年6月15日;接受:2021年12月14日;
发表:2022年2月14日。

编辑:

里卡多。莫妮卡意大利帕尔玛大学

审核:

Mohan曾经英国伯明翰大学
Mehrnoosh Askarpour加拿大麦克马斯特大学

版权©2022曼京,Roncone Scassellati。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:亚历山德罗Roncone,aroncone@colorado.edu

下载