跳转到主要内容gydF4y2Ba

原始研究的文章gydF4y2Ba

前面。Artif。智能。,26 January 2022
秒,机器学习和人工智能gydF4y2Ba
卷4 - 2021 |gydF4y2Ba https://doi.org/10.3389/frai.2021.796825gydF4y2Ba

目光估计卷积神经网络技术在移动设备上gydF4y2Ba

  • 计算机科学和信息学、自然科学与农业科学学院,大学自由州的布隆方丹,南非gydF4y2Ba

眼动跟踪是成为一个非常受欢迎的,有用的和重要的技术。许多眼动跟踪技术目前贵,而且只适用于大型企业。其中一些需要明确个人校准,这使得它们不适合使用在实际或不受控制的环境中。明确个人校准也可以很麻烦,会降低用户体验。为了解决这些问题,本研究提出了一种基于卷积神经网络(CNN)的calibration-free技术改进的目光估计在不受约束的环境中。拟议的技术是由两个部分组成的,即面对组件和只得面部具有里程碑意义的组件。面对组件是用于提取眼睛的凝视估计特性,而只得面部具有里程碑意义的组件是用于编码眼睛的形状和位置(面对)到网络。添加这些信息可以使网络学习自由水头和眼球运动。另一个CNN模型设计在本研究中主要是为了比较。CNN模型只接受面部图像作为输入。 Different experiments were performed, and the experimental result reveals that the proposed technique outperforms the second model. Fine-tuning was also performed using the VGG16 pre-trained model. Experimental results show that the fine-tuned results of the proposed technique perform better than the fine-tuned results of the second model. Overall, the results show that 39-point facial landmarks can be used to improve the performance of CNN-based gaze estimation models.

介绍gydF4y2Ba

眼动跟踪是一个有用的技术,它可以应用到不同的领域,包括医疗诊断(gydF4y2BaHolzman et al ., 1974gydF4y2Ba)、市场营销(gydF4y2Ba威德尔和彼得,2008gydF4y2Ba)、计算机视觉(gydF4y2BaKrafka et al ., 2016gydF4y2Ba和人机交互gydF4y2Ba雅各布和圆锥形石垒,2003年gydF4y2Ba)。许多眼动跟踪系统存在,他们中的一些人是昂贵的购买gydF4y2BaCazzato et al ., 2020gydF4y2Ba)或不准确(gydF4y2Ba威德尔和彼得,2008gydF4y2Ba)。他们中的一些人也限制,因为它们限制了功能提供给用户。这些限制使得许多用户眼动跟踪系统不可用。它也使眼球追踪研究挑战感兴趣的学者。针对这一点,许多研究人员正在设计和开发的眼动跟踪系统对用户负担得起的和可用的。gydF4y2Ba

眼动跟踪或目光估计的研究主要局限于控制环境(gydF4y2BaKothari et al ., 2020gydF4y2Ba)。很多工作没有做的目光估计技术的发展不受控制的环境(gydF4y2BaKothari et al ., 2020gydF4y2Ba)。本研究介绍了一个简单的calibration-free卷积神经网络(CNN)技术为基础的目光估计在移动设备。这项研究的目标是提出一个概念证明开发CNN-based目光估计技术使用正面的图片和只得面部地标图片。CNN是用来提取目光估计特征从正面的图片和相应的面部地标只得由dlib库(gydF4y2Ba麦肯纳和锣,1998gydF4y2Ba)。只得面部里程碑式的使用眼睛的形状和位置编码到网络。我们使用了pre-trained面部具有里程碑意义的探测器在dlib库(gydF4y2Ba麦肯纳和锣,1998gydF4y2Ba)提取面部地标。具体来说,我们使用了探测器的位置估计39 (gydF4y2Bax, ygydF4y2Ba)坐标对应的形状的脸,左眼和右眼。dlib面部地标检测器最初被设计成估计68 (gydF4y2Bax, ygydF4y2Ba脸上)坐标映射到不同的区域,包括左眼,右眼,鼻子,下巴,嘴和脸区域。这是一个设计的实现方法gydF4y2Ba齐米和沙利文(2014)gydF4y2Ba。我们没有使用整个68 (gydF4y2Bax, ygydF4y2Ba编码)坐标,因为我们只是感兴趣的形状和位置左和右眼睛进入网络,不是鼻子,下巴,和嘴。拟议的技术评估,产生令人满意的结果。gydF4y2Ba

相关工作gydF4y2Ba

不同的目光估计技术提出了在文献中。gydF4y2BaVora et al。(2017)gydF4y2Ba开发了一种目光CNN-based技术检测。预处理的技术包括两个单元:单元测试和微调装置。预处理单元被用来提取感兴趣的区域(ROI)图像进行训练,包括正面的图片和上半部脸图像。提取的图像是传递到第二单元进行微调。微调装置包括两个pre-trained模型,即:AlexNet (gydF4y2BaKrizhevsky et al ., 2012gydF4y2Ba)和VGG 16 (gydF4y2BaSimonyan Zisserman, 2014gydF4y2Ba)。在实验过程中,两个pre-trained模型分别调整,和结果表明,VGG-16模型产生了93.36%的准确性,当比较预测数据与测试数据集。AlexNet模型产生88.91%的准确性。gydF4y2Ba纳et al。(2018)gydF4y2Ba介绍了CNN-based眼球追踪技术在汽车。这项技术由一个近红外相机,六个近红外(NIR)发光二极管(led)照明,和一个变焦镜头。近红外光谱相机是用来捕获一个司机的额观点形象。从捕获的图像中提取ROI图像,包括脸图像,左眼图像和右眼的图像。三个ROI图像被用来调整三个独立VGG-16 pre-trained模型。三个模型的输出组合和用于估计司机的目光区。拟议的技术评估使用两项措施,即:严格正确估计率(星际)和松散正确估计率(lc)。实验结果表明,产量平均星际和lc的92.8和99.6%,分别。gydF4y2Ba

Krafka et al。(2016)gydF4y2Ba提出了CNN-based目光估计眼球追踪技术在移动设备上(称为iTracker)。他们还引入了一个大规模的数据集(称为GazeCapture)。数据集包含超过250万~ 1500的图像。数据集被用来构建CNN-based模型与作物的脸,左眼,右眼和脸网格(二进制掩码表示帧内的头部的大小和位置)。实验结果的研究表明,该模型的预测误差手机1.71厘米(6.4 ~ 2.4°在“电话在40厘米距离)和在平板电脑上2.53厘米(10.4 ~ 2.9°”平板电脑在50厘米的距离)。相同的技术模拟后重新标定的过程。实验结果表明,它实现了减少预测误差的手机1.34厘米和2.12厘米在平板电脑上。gydF4y2Ba金et al。(2016)gydF4y2Ba提出了一个类似的技术为移动设备使用。他们引入了一个新功能叫做histogram-of-gradients(猪),从裁剪的图像计算的脸。计算功能结合其他四个输入:脸图像,左眼图像,右眼图像和网格。合并后的输入被用来构建一个CNN模型。产生的模型评估,预测误差为4.85厘米(~ 7°)在iphone上。gydF4y2Ba

王et al。(2016)gydF4y2Ba提出了calibration-free回归深CNN,学习图像特征来预测眼光停留。在这项研究中,引入了随机校准的方法。旨在最小化的方法之间的差异的概率分布预测眼睛和实际的眼睛凝视的概率分布。它使用一个深固定地图获得回归基于CNN (RCNN)和注视分布过程隐式参数估计个人的眼睛。技术评估,它实际上是产生令人满意的结果。在不同的研究中,gydF4y2Ba陈和霁(2011)gydF4y2Ba提出了一个calibration-free使用显著地图技术。图像的显著地图代表独特的特征。技术设计与底层假设用户有更高的概率看图像的显著区域。作者(gydF4y2Ba陈和霁,2011年gydF4y2Ba)设计了一个贝叶斯网络来表示视觉轴之间的概率关系,光轴和眼睛的参数。概率模型,显著地图作为最初的目光输入。动态贝叶斯网络还被介绍给眼睛参数在线进行增量更新。gydF4y2Ba陈和霁(2014)gydF4y2Ba将他们的研究扩展到处理高斯分布。然而,高斯分布需要大规模数据之前注视点分布可以近似(gydF4y2Ba王et al ., 2016gydF4y2Ba)。gydF4y2Ba

保et al . (2021)gydF4y2Ba目光估计提出了一个新颖的方法在移动平板电脑称为自适应特征融合网络(AFF-Net)。他们分层channel-wise两只眼睛的特征图谱。使用Squeeze-and-Excitation层,他们自适应融合两只眼睛的特性取决于外表相似。作者还提出了一种自适应集团标准化方法调整眼功能使用面部表情作为指导。方法是评估使用GazeCapture和MPIIFaceGaze数据集,一个错误的GazeCapture 1.62厘米和3.9厘米MPIIFaceGaze数据集。gydF4y2Ba济钢et al。(2019)gydF4y2Ba介绍了GazeEstimator,两步训练网络增强目光估计在移动设备上。第一阶段是训练一个网络对眼睛具有里程碑意义的300年w-lp本地化数据集与目标正确定位眼睛的形象。第二阶段包括培训使用GazeCapture目光估计网络数据集来创建一个健壮的目光估计模型。GazeCapture数据集上的测试方法和精度产生了1.25厘米。gydF4y2Ba郭et al。(2019)gydF4y2Ba引入了一个新的培训方案CNN叫做宽容和(乙)人才培训计划。培训计划是创建在CNN解决过度拟合的问题。蒸馏是迭代方法的随机知识包含余弦相似性修剪和对齐正交初始化。一种改进的评估目光估计的鲁棒性度量也提出的作者。该方法GazeCapture数据集上进行了测试,取得了1.77厘米不准确。朱利安(gydF4y2Ba阿德勒,2019gydF4y2Ba估算凝视)开发了一种基于神经网络技术在移动设备上。他们训练有素的暹罗神经网络预测线性距离两个注视点在屏幕上。GazeCapture数据集上的技术评估,它实现了高欧几里得距离1.33厘米的误差。gydF4y2Ba表1gydF4y2Ba显示了相关的总结认为在这项研究工作。gydF4y2Ba

表1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表1gydF4y2Ba。总结相关的工作。gydF4y2Ba

提出技术gydF4y2Ba

目前,许多眼球追踪技术可用,但是大部分都是昂贵的和商业(gydF4y2BaKrafka et al ., 2016gydF4y2Ba;gydF4y2BaCazzato et al ., 2020gydF4y2Ba)。其他设计在控制环境中,呈现他们在真实生活环境不可靠。此外,大多数眼球追踪技术需要一个显式的个人确定subject-dependent眼睛特征问题的标定方法。这样的校准程序是不自然的,不便和损害用户体验(gydF4y2Ba王et al ., 2016gydF4y2Ba)。为了解决这些问题,本研究提出了一种回归,calibration-free目光估计CNN模型改进的眼动跟踪在一个不受约束的环境中。gydF4y2Ba

该技术使用图像和相应的只得面部地标(从dlib收购库(gydF4y2Ba麦肯纳和锣,1998gydF4y2Ba)执行凝视预测。只得面部地标添加到CNN模型编码的目标形状的眼睛和眼睛的位置(面对)到模型中。眼睛的形状和位置可以提供信息,一个人看。作为一个例子,如果一个用户正在看不同的点在屏幕上,用户的眼睛会在屏幕上移动。运动尤其明显,当用户查看不同分随机显示在极端的角落一个屏幕上(例如,左上的,右上的左下侧,右下方角落)。用户可能需要移动他的眼睛(有时他的头)看不同的点。运动可能会改变他/她的眼睛的形状,他/她的头的位置。gydF4y2Ba图1gydF4y2Ba显示用户的图片看着不同的方向。如图所示,当用户眼睛的形状变化自发地移动他的眼睛在指定的方向箭头。该技术的目的是捕捉这些变化并编码成一个CNN模型。编码这些变化可以改善目光估计系统的准确性。gydF4y2Ba

图1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图1gydF4y2Ba。不同的眼睛(gydF4y2BaBejjani et al ., 2002gydF4y2Ba)。gydF4y2Ba

拟议的技术是由两个部分组成的,即面对组件(i)和(ii)只得面部具有里程碑意义的组件。一个组件是指一组输入。第一个组件是用于提取目光估计来自眼睛的功能,而第二个组件是用于提取特征从只得面部地标。只得面部地标特征可以帮助网络学习自由水头和眼球运动。更多细节模型的体系结构提供了部分模型架构。另一个CNN模型(称为Network-2)设计在本研究中主要是为了比较。这个模型只接受面部图像作为输入。提出了技术和Network-2之间的主要区别是他们的网络配置。Network-2没有只得面部具有里程碑意义的组件。同时,拟议的技术组件和Network-2有相似的配置。 Their configuration is similar because we want to evaluate the impact of the 39-point facial landmark. We also want to ensure a fair comparison between the two models. A third CNN model was designed in this study (called Network-3). This model accepts only the 39-point facial landmarks as inputs. The model was designed with the goal of evaluating the performance of the 39-point facial landmark and its contribution to gaze estimation models.

CNN善于转移学习(gydF4y2BaVora et al ., 2017gydF4y2Ba)。图像表示从大规模标签数据集可以有效地转移到其他类似的视觉识别任务与有限的训练数据集(gydF4y2BaOquab et al ., 2014gydF4y2Ba)。在这项研究中,我们调整该技术使用VGG16 pre-trained网络(gydF4y2BaSimonyan Zisserman, 2014gydF4y2Ba)。VGG16模型最初训练ImageNet数据集包含超过1400万个图像属于1000类。在微调,我们删除的最后完全连接层VGG16网络(1000类),添加了一些VGG16网络卷积和完全连接层。我们也冻结pre-trained VGG16模型的权重。最后,我们使用训练数据集训练添加层。在培训期间,gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba地面实况标签提供到网络中。gydF4y2Ba

方法gydF4y2Ba

深度学习任务的目光估计可以被视为一种回归或分类任务。尽管如此,回归和分类任务是有用的,回归提供了最高的预测的灵活性(gydF4y2BaLemley et al ., 2018gydF4y2Ba)。本研究涉及的目光作为回归估计的任务。回归的目标任务是找到一个注视点(gydF4y2Bax, ygydF4y2Ba)在屏幕上,它对应于用户在哪里看。gydF4y2Ba

CNN模型设计本研究使用Keras-an开源实现神经网络库编写的Python编程语言。整个培训过程分为两个阶段,即:(i) hyper-parameter搜索阶段和(2)评价阶段。在hyper-parameter搜索阶段,不同的评估模型,该模型与最佳hyper-parameter配置选择。这个模型是通过为培训评估阶段,验证和测试。gydF4y2Ba

在hyper-parameter搜索阶段,Keras调谐器函数被用来寻找最佳hyper-parameter配置。Keras调谐器函数有两个类型的调谐器,即Hyperband和RandomSearch调谐器。在这项研究中,使用了RandomSearch调谐器。调谐器需要一个模型函数的网络架构和不同范围hyper-parameter值是由用户指定。调谐器实例化,寻找最好的hyper-parameter配置启动。在搜索期间,不同的模型构建迭代通过调用函数模型。函数填充搜索空间使用hyper-parameter范围的值由用户指定。调谐器逐步探讨了搜索空间和记录每个网络配置的性能。搜索后,可以检索模型,产生最佳结果来制定和调整gydF4y2BangydF4y2Ba时代,gydF4y2BangydF4y2Ba是用户定义的。在这项研究中,hyper-parameter执行调优的网络。hyper-parameter搜索期间,所有的评估模型训练了gydF4y2BangydF4y2Ba时代,gydF4y2BangydF4y2Ba= 3本研究。搜索后,我们最好的检索模型(已经训练了三个时代)和训练七世。因此,时代的总数用于火车整个模型是10世纪。gydF4y2Ba

数据集gydF4y2Ba

拟议的技术评估在两个数据集,即GazeCapture (gydF4y2BaKrafka et al ., 2016gydF4y2Ba)和TabletGaze (gydF4y2Ba黄et al ., 2017gydF4y2Ba)。GazeCapture数据集包含超过200万个图像从1474年的主题。受试者被要求做一个dot-tracing任务和他们的图像的坐标点使用前置摄像头的设备被抓获。下面的信息包含在GazeCapture数据集:gydF4y2Ba

(a)的前置正面的图像对象执行点跟踪任务。gydF4y2Ba

(b)的边界框坐标的脸和眼睛图像的正面的形象。gydF4y2Ba

(c)地面真理(也就是说,实际的目光注视坐标的坐标gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba方向)。的gydF4y2BaxgydF4y2Ba坐标表示的距离(cm)的左或右方向平面上一个虚拟相机包含真正的位置,虽然gydF4y2BaygydF4y2Ba坐标指定的距离在上下方向上的相机。这个坐标系统允许模型来估计注视坐标,可以推广到多个设备(如笔记本电脑和智能手机)和方向(横向或纵向),根据摄像机定位在屏幕上。它利用前置摄像头的事实通常是在同一平面到屏幕上,位置和垂直于屏幕(gydF4y2BaKrafka et al ., 2016gydF4y2Ba;gydF4y2BaAkinyelu Blignaut, 2020gydF4y2Ba)。gydF4y2Ba

基于上述三个信息点,我们提取图像帧的数据集。从51科目TabletGaze数据集包含816个视频。在数据收集期间执行的数据提供者(gydF4y2Ba黄et al ., 2017gydF4y2Ba),每个主题举行了平板电脑的四个身体姿势:站立,坐,没精打采的,或者撒谎。每个参与者被要求承担四个录音的四个身体姿势,导致共有16个视频序列对每个主题。此外,每位受试者被要求看35在录音不同的注视点。所表示的gydF4y2Ba黄et al。(2017)gydF4y2Ba,并不是所有的视频数据集都是可用的,因此,在这项研究中,我们专注于视频,整张脸是可见的。消除参与者所需的时间重新关注每个点的位置,类似于gydF4y2Ba黄et al。(2017)gydF4y2Ba,我们只提取视频块对应于1.5到2.5点后出现在一个新的位置。gydF4y2Ba

我们也只得面部地标从帧中提取的两个数据集使用pre-trained面部具有里程碑意义的探测器在dlib库(gydF4y2Ba麦肯纳和锣,1998gydF4y2Ba)。一些样品的图片和相应的只得面部地标图片所示gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

图2gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图2gydF4y2Ba。样品的图片的脸,只得面部地标。gydF4y2Ba

本文旨在提出一个概念证明开发CNN-based目光估计技术使用正面的图片和只得面部地标图片。针对这一点,我们只有GazeCapture数据集的一个子集用于我们的实验。子集包含31920张图片来自11个科目(15960全脸图像和15960只得面部具有里程碑意义的图像)。我们也使用TabletGaze数据集的一个子集。子集包含27848张图片来自20个科目(13924全脸图像和13924只得面部具有里程碑意义的图像)。gydF4y2Ba

卷积神经网络的输入gydF4y2Ba

GazeCapture中的图像数据集的维度480×640。类似于gydF4y2Ba金et al。(2016)gydF4y2Ba,我们写了一些脚本,以作物正面的图像从原始帧,大小224×224。我们还写了一些脚本提取只得面部地标的剪裁脸图片和大小224×224。所有的图片都是规范化区间[0,1]。标签的数据集(例如gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba注视坐标)也被规范化区间[0,1]。最后,图像和相应的标签被用来构建模型。百分之八十的数据集是用于培训,而剩下的20%被用于验证和测试。gydF4y2Ba

模型架构gydF4y2Ba

提出技术的网络体系结构分为两个部分。第一个组件是用来处理正面的图片,而第二个组件是用于处理只得面部地标。所示gydF4y2Ba图3gydF4y2Ba,第一个组件包括两个卷积层和一个完全连接层,而第二个组件包括两个卷积层和一个完全连接层。在这两个组件,每个卷积层平均后跟池层。第一次和第二次的完全连接层组件是连接并通过另一个完全连接层和一个输出层。包含两个输出层神经元,这代表了估计gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba注视坐标。我们使用了修正线性激活函数(ReLU)层,除了输出层。我们使用了线性激活函数为输出层,因为我们正在回归问题(即。,目光估计)。该技术所示的概述gydF4y2Ba图3gydF4y2Ba。gydF4y2Ba

图3gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图3gydF4y2Ba。该技术的概述。输入包括脸和面部地标,大小为224×224。Conv指卷积层,P代表池层,FCL代表完全连接层。FCL2是输出层。gydF4y2Ba

如上所述节中提出的技术,我们设计了另一个CNN模型(即。Network-2)为了比较。Network-2接受面部图像作为输入。它由两个卷积层,一个完全连接层和一个输出层。平均每个卷积层是紧随其后的是池层。输出层包含两个神经元。ReLu激活函数是用于以外的所有层输出层,我们使用线性激活函数的地方。gydF4y2Ba

我们进行微调提出技术使用VGG16 pre-trained模型。微调模型由两部分组成。第一个组件是用来处理面对图像使用VGG16 pre-trained模型。VGG16网络接受面对图像作为输入。VGG16网络的输出层移除并通过一层平均分担。平均池层是紧随其后的是一个卷积层,一层平均池,一个完全连接层,一个辍学层。辍学层是用来防止过度拟合。辍学率设置为0.5。第二个组件是用于处理只得面部地标图片。它由一个卷积层,其次是一个平均池层,和一个完全连接层。 The output from the dropout layer of the first component is concatenated with the output from the fully connected layer of the second component. The concatenated output is passed through one fully connected layer and one output layer, containing two neurons. Similar to other experiments, we used the ReLU activation function for all the layers, except the output layer where we used the linear activation function. During fine-tuning, we freeze all the pre-trained layers (excluding the output layer), and trained only the added layers.

我们还进行了微调Network-2使用VGG16 pre-trained模型。在微调,我们删除了VGG16网络的输出层,它通过一个平均池层。平均池层是紧随其后的是一个卷积层,一层平均池,一个完全连接层,一个辍学层和一个输出层。辍学率设置为0.5。gydF4y2Ba

评价指标gydF4y2Ba

拟议的技术构建和训练的。hyper-parameters用于培训报告gydF4y2Ba表2gydF4y2Ba。表中,beta_1 beta_2指的是指数衰减率分别为1和2的时刻估计。类似于没有发现匹配,我们报告错误的平均欧氏距离(AED)从真正的固定(见方程(1))。厘米的AED报道和度。我们也报告的准确性和均方误差(MSE)产生的模型。gydF4y2Ba

平均欧氏距离gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba (gydF4y2Ba ggydF4y2Ba tgydF4y2Ba _gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba egydF4y2Ba _gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba +gydF4y2Ba (gydF4y2Ba ggydF4y2Ba tgydF4y2Ba _gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba egydF4y2Ba _gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba

在哪里gydF4y2BagtgydF4y2Ba_gydF4y2Ba习和gtgydF4y2Ba_gydF4y2Ba易gydF4y2Ba是指地面真理为每个输入标签,和gydF4y2BaegydF4y2Ba_gydF4y2Ba习和egydF4y2Ba_gydF4y2Ba易gydF4y2Ba指的是估计(gydF4y2Bax, ygydF4y2Ba为每个输入)注视坐标。gydF4y2Ba

表2gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表2gydF4y2Ba。Hyper-parameter值进行训练。gydF4y2Ba

结果和讨论gydF4y2Ba

不同的实验进行评价该技术的性能。gydF4y2Ba表3gydF4y2Ba显示了AED, MSE和准确性提出技术产生的。第二个模型的表也显示了性能(即。,Network-2) designed in this study for the sake of comparison. The proposed technique was trained on face images and their corresponding 39-point facial landmark images, while Network-2 was trained on face images only. As shown in the result, the proposed technique outperformed Network-2, achieving an AED of 0.22 cm and a MSE of 0.0378 (~0.32° on a 4.7″ phone at 40 cm distance). This shows that the 39-point facial landmarks improved the performance of the model.

表3gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表3gydF4y2Ba。GazeCapture数据集的结果由该技术。gydF4y2Ba

更多的实验进行评估的性能只得面部地标。在实验中,面对组件被提议的技术,和面部具有里程碑意义的组件被训练只得面部地标图片。获得的结果报告gydF4y2Ba表3gydF4y2Ba。模型制作的AED 0.32厘米(~ 0.47°)和均方误差为0.0761。观察到,完整的模型表现好于面部具有里程碑意义的模型,但是面部里程碑式的性能模型仍然是可接受的。这表明只得面部地标有可能作为一个独立的输入用于开发改进的目光估计模型。它还表明,只得面部地标可以结合其他输入提高目光估计。gydF4y2Ba

更多的实验进行改进的性能提出了使用转移学习技术。具体来说,VGG16 pre-trained模型被用来调整该技术的性能。我们进行微调的提出技术相比,技术(即。Network-2)。调整结果报告gydF4y2Ba表2gydF4y2Ba。如表所示,调整的结果提出技术优于Network-2的调整结果。它实现了AED的0.13厘米和MSE的0.0116(4.7 ~ 0.19°在“电话在40厘米距离)。这进一步显示了只得面部地标性建筑的意义。结果还表明,调整的结果提出技术表现结果的主要模型。这表明微调在减少误差的重要性。gydF4y2Ba

图4gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba显示了训练和验证(即损失。,MSE) produced by the proposed technique for the GazeCapture dataset. The figures also show the training and validation accuracies produced by the proposed technique. As explained in section Methods, the entire training process is divided into two stages. At the hyper-parameter search stage, the models were trained for three epochs. At the end of this stage, the best model was selected and trained (at the second stage) for another seven epochs.图4gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba显示在第二阶段模型的性能,这是主要的训练阶段。如数据所示,没有很大差异训练和验证在每个时代产生的损失。也没有大的差异在每个时代产生的培训和验证精度。这表明没有过度拟合训练模型。它还显示了泛化性能的技术。gydF4y2Ba

图4gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图4gydF4y2Ba。结果脸上+ FL GazeCapture数据集。gydF4y2Ba

图5gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图5gydF4y2Ba。结果脸上+ FL + VGG16 GazeCapture数据集。gydF4y2Ba

图6gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图6gydF4y2Ba。结果仅供FL(39分面部地标)GazeCapture数据集。gydF4y2Ba

图7gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图7gydF4y2Ba。结果FL + VGG16 GazeCapture数据集。gydF4y2Ba

图8gydF4y2Ba显示了距离地面真理和预测的目光值。gydF4y2Ba图8gydF4y2Ba显示结果为该技术(脸+ FL),虽然gydF4y2Ba图8 bgydF4y2Ba显示了结果的整合提出技术(脸+ FL + VGG16)。我们报道的发现只有20条注视的位置以避免过度拥挤的情节和保证它很容易comprehendible。从两个情节可以看出,每个凝视的目光估计位置的数据非常接近地面真理注视的位置。gydF4y2Ba图8 bgydF4y2Ba也表明,微调提出技术导致目光估计误差的减少。平均结果说明,该方法产生一个令人满意的欧氏距离。gydF4y2Ba

图8gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图8gydF4y2Ba。可视化显示之间的距离地面真理和预测的目光gydF4y2Ba(一)gydF4y2Ba面对+ FL和gydF4y2Ba(B)gydF4y2Ba脸+ FL + VGG16。gydF4y2Ba

正如前面指出,该方法评估TabletGaze数据集。gydF4y2Ba表4gydF4y2Ba总结了AED, MSE和精度提出了技术(脸+ FL)和比较技术(脸)。可以观察到,该技术相比略优于技术AED和MSE。的调整版本提出技术(脸+ FL + VGG16)也表现相比技术以小的优势。这说明只得面对里程碑的作用提高模型的性能。另一个实验进行评估的性能只得面部地标。只得面部具有里程碑意义的是利用训练另一个CNN模型,结果是比训练模型时只从表面上,如图所示gydF4y2Ba表4gydF4y2Ba。gydF4y2Ba

表4gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表4gydF4y2Ba。TabletGaze数据集的结果由该技术。gydF4y2Ba

Krafka et al。(2016)gydF4y2BaTabletGaze数据集还研究了他们的技术,研究结果表明,数据集不执行以及GazeCapture数据集。同样,在这项研究中,该技术不产生令人满意的结果为TabletGaze数据集相比,GazeCapture数据集。时达到94.2042%的精度评估GazeCapture数据集,但只有70.9515%当评估TabletGaze数据集。这认股权证调查的原因。然而,GazeCapture数据集似乎是一个更好的数据集的目光估计,基于结果。gydF4y2Ba

图9gydF4y2Ba- - - - - -gydF4y2Ba12gydF4y2Ba显示了训练和验证(即损失。,MSE) produced by the proposed technique for the TabletGaze dataset. The figures also show the training and validation accuracies produced by the proposed technique. As can be observed, while the accuracy and AED of the models is not very high, their generalization performance is adequate. There is no significant difference in the training and validation losses generated in each period. Additionally, there is no significant difference between the accuracy achieved by training and validation in any period. This shows that there is no overfitting in the model.

图9gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图9gydF4y2Ba。结果脸上+ FL TabletGaze数据集。gydF4y2Ba

图10gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图10gydF4y2Ba。结果脸上+ FL + VGG16 TabletGaze数据集。gydF4y2Ba

图11gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图11gydF4y2Ba。结果仅供FL(39分面部地标)TabletGaze数据集。gydF4y2Ba

图12gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图12gydF4y2Ba。结果FL + TabletGaze数据集。gydF4y2Ba

拟议的技术(脸+ FL + VGG16)对四个以前公布的算法比较GazeCapture数据集:GazeEstimator (gydF4y2Ba济钢et al ., 2019gydF4y2Ba)、瞪羚(gydF4y2Ba金正日et al ., 2016gydF4y2Ba),AFF-Net (gydF4y2Ba保et al ., 2021gydF4y2Ba)、乙(gydF4y2Ba郭et al ., 2019gydF4y2Ba)。gydF4y2Ba表5gydF4y2Ba和gydF4y2Ba图13gydF4y2Ba显示结果的四个技巧。如图所示,该方法优于四个技术相比。它取得了最好的欧几里得距离0.1278厘米,GazeEstimator和AFF-Net紧随其后。gydF4y2Ba

表5gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表5gydF4y2Ba。提出了技术与其他技术。gydF4y2Ba

图13gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图13gydF4y2Ba。对比提出技术和四个技术。gydF4y2Ba

总结gydF4y2Ba

本文介绍了CNN-based calibration-free技术提高目光估计。技术接受两个输入,即:正面的图片和只得面部地标图片。只得面部具有里程碑意义的是用于编码的形状和位置的眼睛和头部到网络。不同的实验研究,结果表明,该技术产生好的结果。它还表明,只得面部地标改进的性能提出的目光估计模型。性能可以进一步通过训练来提高该技术在一个更大的数据集。这是我们为未来的研究计划。gydF4y2Ba

数据可用性声明gydF4y2Ba

公开的数据集进行分析。这GazeCapture数据集可以在这里找到:gydF4y2Bahttps://gazecapture.csail.mit.edu/download.phpgydF4y2Ba,gydF4y2Bahttps://github.com/CSAILVision/GazeCapturegydF4y2Ba。TabletGaze数据集可以在这里找到:gydF4y2Bahttps://rice.app.box.com/s/nvc48slwmrtrmnmnpmg1l0pyp5f7pbowgydF4y2Ba。gydF4y2Ba

作者的贡献gydF4y2Ba

所有作者列出了一大笔,直接和知识贡献的工作,批准发布。gydF4y2Ba

资金gydF4y2Ba

作者想表达自己的感激之情自由州大学支付处理与这项工作有关的费用。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

引用gydF4y2Ba

阿德勒,j . (2019)。gydF4y2Ba移动设备的目光与深度学习估计:使用暹罗神经网络gydF4y2Ba。瑞典:k皇家理工学院。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Akinyelu, A。,和Blignaut, P. (2020). Convolutional neural network-based methods for eye gaze estimation: a survey.IEEE访问gydF4y2Ba8,142581 - 142605。doi: 10.1109 / ACCESS.2020.3013540gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

包,Y。,Cheng, Y., Liu, Y., and Lu, F. (2021). “Adaptive feature fusion network for gaze tracking in mobile tablets,” in2020年25日国际会议模式识别gydF4y2Ba(米兰:ICPR), 9936 - 9943。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Bejjani, b P。阿努尔夫,我。,Houeto, J. L., Milea, D., Demeret, S., Pidoux, B., et al. (2002). Concurrent excitatory and inhibitory effects of high frequency stimulation: an oculomotor study.j .神经。Neurosurg。精神病学gydF4y2Ba72年,517 - 522。doi: 10.1136 / jnnp.72.4.517gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Cazzato D。狮子座,M。,Distante, C., and Voos, H. (2020). When i look into your eyes: a survey on computer vision contributions for human gaze estimation and tracking.传感器gydF4y2Ba20:3739。doi: 10.3390 / s20133739gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,J。,和Ji, Q. (2011). Probabilistic gaze estimation without active personal calibration.CVPRgydF4y2Ba2011年,609 - 616。doi: 10.1109 / CVPR.2011.5995675gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,J。,和Ji, Q. (2014). A probabilistic approach to online eye gaze tracking without explicit personal calibration.IEEE反式。图像的过程。gydF4y2Ba24岁,1076 - 1086。doi: 10.1109 / TIP.2014.2383326gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

郭,T。,Liu, Y., Zhang, H., Liu, X., Kwak, Y., Yoo, B. I., et al. (2019). “一个广义和健壮的方法对实际的目光估计聪明gydF4y2Ba电话,”gydF4y2Ba《IEEE CVF计算机视觉国际会议/研讨会gydF4y2Ba(首尔)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Holzman, p S。,Proctor, L. R., Levy, D. L., Yasillo, N. J., Meltzer, H. Y., and Hurt, S. W. (1974). Eye-tracking dysfunctions in schizophrenic patients and their relatives.拱门。他精神病学gydF4y2Ba31日,143 - 151。gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

黄,Q。,Veeraraghavan, A., and Sabharwal, A. (2017). TabletGaze: dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets.马赫。粘度:。gydF4y2Ba28日,445 - 461。doi: 10.1007 / s00138 - 017 - 0852 - 4gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

雅各,r . j . K。,和Karn, K. S. (2003). Eye tracking in human-computer interaction and usability research: ready to deliver the promises.心gydF4y2Ba2,573 - 605。doi: 10.1016 / b978 - 044451020 - 4/50031 - 1gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

济钢,L。,Francis, B. S. L., and Rajan, D. (2019). “Free-head appearance-based eye gaze estimation on mobile devices,” in2019年国际会议上人工智能信息和通信(ICAIIC)gydF4y2Ba(冲绳),232 - 237。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

齐米,V。,和Sullivan, J. (2014). “One millisecond face alignment with an ensemble of regression trees,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba(哥伦布,哦),1867 - 1874。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

金米。,Wang, O., and Ng, N. (2016).卷积神经网络架构的目光估计在移动设备上gydF4y2Ba。斯坦福,CA:斯坦福大学。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kothari, R。杨,Z。,Kanan, C., Bailey, R., Pelz, J. B., and Diaz, G. J. (2020). Gaze-in-wild: a dataset for studying eye and head coordination in everyday activities.科学。代表。gydF4y2Ba队。doi: 10.1038 / s41598 - 020 - 59251 - 5gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Krafka, K。,Khosla, A., Kellnhofer, P., Kannan, H., Bhandarkar, S., Matusik, W., et al. (2016). “Eye tracking for everyone,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba(圣胡安,公关),2176 - 2184。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Krizhevsky,。,Sutskever, I., and Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks.放置神经Inf。过程。系统。gydF4y2Ba25日,1097 - 1105。doi: 10.1145 / 3065386gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Lemley, J。凹地,。,Drimbarean, A., and Corcoran, P. (2018). Efficient CNN implementation for eye-gaze estimation on low-power/low-quality consumer imaging systems. arxiv [preprint].ariv:1806.10890.

谷歌学术搜索gydF4y2Ba

麦肯纳,s . J。,和Gong, S. (1998). Real-time face pose estimation.实时成像gydF4y2Ba4,333 - 347。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

纳,r。,Arsalan, M., Batchuluun, G., Yoon, H. S., and Park, K. R. (2018). Deep learning-based gaze detection system for automobile drivers using a NIR camera sensor.传感器gydF4y2Ba18:456。doi: 10.3390 / s18020456gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Oquab, M。,Bottou, L., Laptev, I., and Sivic, J. (2014). “Learning and transferring mid-level image representations using convolutional neural networks,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba(哥伦布,哦),1717 - 1724。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Simonyan, K。,和Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arxiv [preprint].arxiv:1409.1556.

谷歌学术搜索gydF4y2Ba

Vora, S。,Rangesh, A., and Trivedi, M. M. (2017). “On generalizing driver gaze zone estimation using convolutional neural networks,” in2017年IEEE智能车辆研讨会(IV)gydF4y2Ba(洛杉矶CA), 849 - 854。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

王,K。,Wang, S., and Ji, Q. (2016). “Deep eye fixation map learning for calibration-free eye gaze tracking,” in第九届双年展ACM学报》研讨会上眼动跟踪研究与应用gydF4y2Ba(查尔斯顿:ACM), 47-55。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

威德尔,M。,和Pieters, R. (2008).眼动跟踪视觉营销gydF4y2Ba(Norwell:现在出版商Inc), p . 104。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

关键词:gydF4y2Ba卷积神经网络、计算机视觉、注视估计,眼睛跟踪,移动设备gydF4y2Ba

引用:gydF4y2BaAkinyelu AA和Blignaut P(2022)卷积神经网络技术的目光估计在移动设备上。gydF4y2Ba前面。Artif。智能。gydF4y2Ba4:796825。doi: 10.3389 / frai.2021.796825gydF4y2Ba

收到:gydF4y2Ba2021年10月17日;gydF4y2Ba接受:gydF4y2Ba2021年12月20日;gydF4y2Ba
发表:gydF4y2Ba2022年1月26日。gydF4y2Ba

编辑:gydF4y2Ba

近东以王gydF4y2Ba微软亚洲研究院,中国gydF4y2Ba

审核:gydF4y2Ba

Indriyati AtmosukartogydF4y2Ba、新加坡理工学院、新加坡gydF4y2Ba
马尔科·利奥gydF4y2Ba意大利国家研究委员会(CNR)gydF4y2Ba

版权gydF4y2Ba©2022 Akinyelu和Blignaut。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)gydF4y2Ba。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba

*通信:gydF4y2Ba安多尼古a . AkinyelugydF4y2Baakinyelu.ayobami@gmail.comgydF4y2Ba

下载gydF4y2Ba