跳转到主要内容

原始研究的文章

前面。大数据,2019年10月31日
秒,数据挖掘和管理
卷2 - 2019 | https://doi.org/10.3389/fdata.2019.00038

从大学术数据面向解决方案的知识存储库

余张 1 * 王敏2 名萨贝里 3 伊丽莎白常1
  • 1新南威尔士大学商学院,堪培拉,澳大利亚
  • 2工程和信息技术学院的新南威尔士大学,堪培拉,澳大利亚
  • 3学校的信息,系统和造型、工程和信息技术学院,悉尼科技大学,悉尼,澳大利亚新南威尔士州

科学论文的数量快速增长,形成科学理解和识别的基础研究问题和最先进的解决方案。尽管相当大的意义解决问题的信息,现有的学术推荐系统缺乏检索信息的能力从科学文章生成知识存储库,并提供解决问题的建议。为了解决这个问题,本文提出了一种新颖的框架来构建面向解决方案的知识存储库,并提供建议来解决给定的研究问题。框架包括三个模块:一个基于语义信息提取模块矿业从大量学术论文研究问题和解决方案;基于异构文献知识评估模块图和排名算法;和知识存储库生成模块生产面向解决方案的地图与建议。基于该框架,一个原型学术支持系统实现的解决方案。一个案例研究的研究领域进行入侵检测,结果证明了该方法的有效性和效率。

1。介绍

学术出版物通常反映研究领域的发展和提供经典和前沿研究问题的解决办法。这些出版物产生大学术数据呈指数级增长,因为信息时代的开始。这样的“知识爆炸”(阿黛尔和Vohra, 2003年)带来的宝贵的机会研究的现状有一个全面的理解研究问题的发展。然而,为了找到可能的解决问题的方法或收购solution-related知识,研究人员通常需要深入研究大量的文章,特别是压倒性的经验研究人员或非专业用户只有有限的知识领域。尽管学术搜索引擎,如谷歌学者和斯高帕斯便于搜索过程,他们不支持我深入探索的内容,不能解决研究问题的知识。

有很多研究专注于大学术检索信息的数据理解和想象学术论文进行分析和建议,比如VOSviewer (Van Eck Waltman, 2010),AKMiner (黄和Wan, 2013年)和AceMap (谭et al ., 2016)。这些系统提供有用的信息和学术论文引证关系参与学术社交网络数据,然而,他们并不是为了从学术论文检索解决问题的知识,从而不能推荐给了研究问题的解决方案。设计高效的知识挖掘和检索方法和方案一直是一个挑战,阻碍了发展面向解决方案的知识存储库。

在这项研究中,三个观察杠杆来构建我们的建议的基础。首先,学术论文在大多数情况下,解决一个或几个研究问题,因此,挖掘科学解决方案从一个足够数量的学术论文是一个有效的方法找到一个研究问题的最佳解决方案。第二,一个好的解决方案通常存在于一个好的论文,往往有较高的影响,因此,它是合理的假设影响纸更可能提供一个更高更好的解决一个特定问题。第三是学术论文提出解决问题域(或跨学科)经常通过引用建立关系和学术社交网络(作者和出版地点)。因此,这些学术信息应该考虑当评估的影响。

基于上述观察结果,我们提出一个新的框架来生成一个面向解决方案的知识存储库(SKR)提供科学的解决方案开采从给定的研究问题的学术文章。为此,我们首先设计一个基于语义的信息提取模块文本挖掘从源文章,并提出挖掘关联规则的概念和链接这很大程度上提高挖掘效率相比,全文解析。然后,知道评估模块设计基于异构文献图对收集到的解决方案根据相应的影响的文章。最后,生成SKR建议每个给定的研究问题提供解决方案。基于该SKR框架,一个原型系统,名叫学术解决方案支持系统(S4),是如何实现的。S4系统测试通过一个案例研究在入侵检测领域。结果证明了该方法的有效性和效率。

本研究的新颖性和贡献可以概括如下:

•面向解决方案的知识仓库的概念(SKR)创建。它包含重要的解决问题的知识迅速理解研究问题的发展状态,发现现有的解决方案。

•排名问题的科学解决方案转化为学术论文排名,由使用加权的排名算法解决异构文献图(HBG)。

•一个学术的解决方案支持系统(S4)原型实现。案例研究验证,系统自动从大量学术论文和我的解决方案可以提供建议,有效地解决给定的研究问题。

2。相关的工作

许多研究已经贡献了学术文章搜索和推荐方法,可分为六大类包括刻板印象、内容过滤、基于协同过滤、基于同现的方法,图法和混合法。这些方法的优点和缺点。例如,刻板印象(有钱了,1979;2010年·巴拉;分为2015)消耗相当大量的人类劳动和时间。内容过滤方法(杰克,2012;Zarrinkalam Kahani, 2013;里奇et al ., 2015),提高了系统的自动化程度和精度分析科学论文的内容,但它创建低意外和高过度专门化的问题,它更关心推荐质量。协同过滤(杨et al ., 2009;马et al ., 2014;Arapakis et al ., 2015)和基于同现的方法(Monnich施皮尔,2008;Gipp分为上下,2009;Zhang et al ., 2016)提高意外问题,而是他们需要处理本身问题和增加计算时间(Sosnovsky Dicheva, 2010)。基于图的(Bethard Jurafsky, 2010;Le Lauw, 2017)和混合方法(伯克,2002;老挝和科恩,2010年)利用固有的学术网络中的连接,产生更高层次的推荐精度一般来说,然而,使用数学算法和模型的复杂程度增加。

此外,研究人员和从业人员提出了许多学术推荐系统。ArnetMiner (唐et al ., 2008)专注于挖掘学术社交网络,包括提取研究资料,结合出版数据,建模学术网络和提供搜索服务网络。VOSviewer (Van Eck Waltman, 2010)提出了大规模图显示资料,文献实体密度和协作关系。地铁地图(Shahaf et al ., 2012)提出了构建路线图学术论文基于度量的影响,保险,和连接产生的文件。AKMiner (黄和Wan, 2013年从学术文章)中提取的学术概念基于马尔可夫逻辑网络(MLN)和构造图展示他们的关系。AceMap (谭et al ., 2016)大学术分析数据和结果通过一个动态的“地图”引文网络,纸集群、学术谱系,作者和会议主页可以显示。研究地图(道et al ., 2017)提出了揭示知识学习跟踪给定的文章基于基于引用注入双重阻尼PageRank (RIDP)。所有这些系统都支持用户开发更高效的文献综述和分析,然而,解决问题的知识和构建面向解决方案的知识存储库检索尚未探索。

知识和概念挖掘研究分析文档内容。文章内容商(ACM)包含一篇文章内容的一个杰出范例矿工为评估质量的科学设计输出(Nuzzolese et al ., 2016)。它使用混合方法包括一些现有技术如NLP,语义Web技术,本体设计实践和弗雷德(Gangemi et al ., 2013)使提取的信息从PDF文档包括作者姓名、关系、国家,补充材料,部分,表、数据、资助机构和欧盟项目。大部分的文档内容提取方法集中在矿业科学文章或只提取引文的高层结构和元数据,然而没有人贡献了在收集知识文章的数据(Shotton 2009;江诗丹顿et al ., 2013;Tkaczyk et al ., 2015;Perez-Arriaga et al ., 2016)。

本研究旨在自动找到解决方案给从学术文章研究问题,生成面向解决方案的知识存储库,并推荐高亮显示的解决方案基于文章的影响问题。

3所示。方法

3.1。定义

定义1研究问题(RP)指的是一个科学的问题或问题的文章声称地址。

定义2解决方案(PS)表示该技术或方法,一篇文章提出解决问题或问题。

定义3加权异构文献图(加权HBG)代表文献相结合的网络学术信息,如论文、作者和场馆的出版物(杂志和会议),到一个异构的单位,让他们相互作用通过子网。雷竞技电竞体育竞猜平台值得注意的是,HBG是一个加权图考虑引用相关性和作者。详情,请参见3.4节。

定义4面向解决方案的知识存储库(SKR)表示组成的知识库RP年代,PS年代,以及它们之间的关系。的PSs是排名根据他们的影响。

定义5关联规则如何定义文件及其对应的RP年代和PS年代是有联系的。这些规则包括:(一)RPPS与本文相关的提取;每个纸,(b)RP(s)和PS从标题中提取、抽象、介绍或结论,和PS是相关的RP(年代)。

3.2。提出了框架

正如前面提到的,一个好的解决方案通常存在于一个好的纸具有更高的影响,所以一揽子文件更有可能提供更好的解决具体问题。换句话说,这个问题的解决方案知识排名评估可以被转换成相应的论文提出这些解决方案。拟议的框架中说明了图1。源的文章作为输入。这些产品都是斯高帕斯回来通过搜索域用户定义的关键字。的RP年代和PS然后从文件中提取和使用相应的文献信息,形成加权异构文献图(HBG)。后来,W-Rank算法(Zhang et al ., 2019)采用等级的论文,在此基础上PS可以评估。最后一个SKR产生关联RP和相应的PS年代。

1。基于语义的信息提取。运行一个关键字文本挖掘方法提取的源文件RP年代和PS年代。此外,文献数据(出处、作者、场馆、出版时间)相应的论文也提取。

2。加权HBG建设。生成一个HBG通过整合文献信息,采用加权方案在引文网络和author-article子考虑引用relavance和作者更新HBG成一个加权。

3所示。报纸影响评估(排名)和SKR一代。利用排名算法,W-Rank等级相应的论文,提出了解决方案PS年代,最后生成一个SKR通过连接排名PS到他们的RP年代初基于关联规则的定义。

图1
www.雷竞技rebatfrontiersin.org

图1。框架说明。

3.3。基于语义的信息提取

提出了一个基于语义的文本挖掘方法使用关键字在这一节中提取PS年代和RP从学术论文,PS年代和RP分别提取。具体地说,为RP(年代),前面的名词术语定位关键字提取,因为他们通常表示需要解决的研究问题在学术文章。例如,如果“攻击”和“入侵”设置为关键词搜索文章入侵检测的研究领域,我们可以获得的话,比如“DoS,”“DDoS,”“洪水”,“注入”,“窃听”,使用该方法等等。这些话是入侵在每一篇文章,它代表了RP年代和需要提取。同样,为了提取PS年代,所有的句子包含动词词“建议”或“存在”或“开发”或“地址”或“设计”是提取自作者通常证明他们的贡献,新奇或解决方案通过使用这些动词。例如,“在本文中,我们提出“多级推力过滤(MTF)机制”作为一个解决方案,这验证传入的…(Iyengar et al ., 2014)“简要地总结了本文中提出的解决方案使用动词”的建议。“解决研究问题提出的解决方案或技术在学术文章中最有可能在句子中表示。

为了减少可能的噪声和提高效率在信息提取,只有标题,摘要,介绍和结论的每篇论文被认为是文本挖掘过程而不是全文解析。程序运行在每篇论文遵循优先顺序,也就是说,每篇论文的标题和摘要处理首先,然后是介绍和结论。具体来说,如果两个RPPS从标题和摘要,成功提取过程停止,否则介绍和结论将被处理,直到两个吗RPPS被发现。对于那些论文返回(包括只有部分信息RPPS或空),他们将不会被认为是在构建知识存储库,因此,被删除从进一步处理。伪代码信息提取和关联规则Algoirthm 1所示已验证在我们以前的工作(Zhang et al ., 2018)。

提取的PS年代和RP年代是区别对待的。在每篇论文的文本时,每个名词术语表示RP分别提取和存储,导致一个或多个RP年代;在句子(s)会议的条件PS提取、连接和存储为一个PS。将关联规则,两种可能的场景可能发生,包括一对一(一对PSRP)和multiple-to-one(一个PS到多个RP年代)。最后,提取的PS年代,RP年代和它们的连接将被用于开发知识存储库,其中定义的集群存储库中提取RP年代。

算法1:
www.雷竞技rebatfrontiersin.org

算法1:。基于语义的信息提取

3.4。加权异构文献图施工

回想一下,学术论文并不是独立的,它们是互相联系通过引用和学术社交网络,因此应该考虑这些因素制定论文的评价的影响。为了达到这个目标,构造加权HBG使用信息从之前的组件,包括学术文章、作者、场馆(期刊和会议),和它们之间的关系。雷竞技电竞体育竞猜平台

加权HBG G 是以下论文排名的基础算法和它,见图2,可以用一组描述节点 N 和一组链接 l 连接这些节点,如下所示:

G = G P - - - - - - 一个 G P - - - - - - P G P - - - - - - V ( 1 )
= { N , l } = { N 一个 N P N V , l P - - - - - - 一个 l P - - - - - - P l P - - - - - - V } ( 2 )

在哪里P,一个,V分别表示文章、作者、和地点。考虑到引用相关性,引文网络进一步更新 G P - - - - - - P = { N P , l P - - - - - - P , W } ,在那里W∈ℝN×N引文网络的邻接矩阵和吗 N = | N P | 是文章的数量。的邻接矩阵W是一个代表的引文网络结构描述条目,表示是w我,我指从文章引用链接的相关性j

图2
www.雷竞技rebatfrontiersin.org

图2。加权异构文献图(加权HBG)。

引用相关性可以从两个角度解释,包括文章的内容的语义相似度和网络级相似性评估相互链接在引文网络。语义相似度,我们从论文标题和摘要提取词汇项目,并使用“对齐,消除歧义和行走”(ADW)算法(Pilehvar et al ., 2013)计算。选择标题和摘要,因为他们包含一篇文章的关键信息,和sense-level ADW采用由于其灵活性在处理词汇项在不同大小和有效性比较词项的意义。测量网络级相似,我们使用余弦相似度(顿,1970),它在处理引文网络是有效的。两篇文章之间的余弦相似性PPj被定义为:

C o 年代 n e ( P , P j ) = | l P l P j | | l P | × | l P j | ( 3 )

在哪里lP表示连接到节点的链接P在引文网络lPlPj连接的链接PPj不管方向的联系。最后,引用相关性被制定为一个集成的语义相似度和网络级相似性按照下列方程(Zhang et al ., 2019)。

w , j = α · 年代 e 一个 n t c ( P , P j ) + β · C o 年代 n e ( P , P j ) ( 4 )

α和β系数由指数函数定义: α = e λ ( 年代 e 一个 n t c ( P , P j ) - - - - - - τ 1 ) β = e λ ( C o 年代 n e ( P , P j ) - - - - - - τ 2 ) 。λ是设置为6的相似性值大于阈值,阈值τ1和τ2调整的中间值相似的两种类型,分别。α和β是归一化α+β= 1。

3.5。影响评估(排名)

论文应用W-Rank排名算法在我们之前的研究(Zhang et al ., 2019),输出列表纸之间的传播获得的分数权威的分数年代和中心分数H从三种类型的节点(纸P作者一个,地点V)加权HBG从先前生成组件。我们可以计算中心的作者一个和地点V如下:

H ( 一个 ) = P j O u t ( 一个 ) 年代 ( P j ) | O u t ( 一个 ) | ( 5 )
H ( V ) = P j O u t ( V ) 年代 ( P j ) | O u t ( V ) | ( 6 )

在哪里(X)代表节点链接节点X在网络。考虑到引用相关性w分纸的中心P可以计算如下:

H ( P ) = P j O u t ( P ) w , j 年代 ( P j ) P j O u t ( P ) w , j ( 7 )

根据中心的分数,我们可以计算出相应的组件权威的分数,即引用(P),作者(P),场地(P),如下所示,传播中心分数的论文,作者分别和地点。

一个 u t h o r ( P ) = Z - - - - - - 1 ( 一个 ) 一个 j n ( P ) H ( 一个 j ) ( 8 )
V e n u e ( P ) = Z - - - - - - 1 ( V ) V j n ( P ) H ( V j ) ( 9 )
C t 一个 t o n ( P ) = Z - - - - - - 1 ( P ) P j n ( P ) H ( P j ) w , j ( 10 )

在哪里(X)表示节点与节点X,Z(·)是一个标准化的术语。此外,我们使用以下方程考虑出版时间,促进新报纸,因为他们的声望往往低估了通过citation-based模型由于引文不足。

T e ( P ) = Z - - - - - - 1 ( T ) e - - - - - - ρ ( T C u r r e n t - - - - - - T P ) ( 11 )

ρ= 0.62,T当前的评价是当前时间,Z是一个标准化的术语。最后,本文权威得分年代更新考虑上面的四个组件引用,作者、时间和场所,根据以下方程。

年代 ( P ) = α · C t 一个 t o n ( P ) + β · 一个 u t h o r ( P ) + γ · V e n u e ( P ) + δ · T e ( P ) + ( 1 - - - - - - α - - - - - - β - - - - - - γ - - - - - - δ ) · 1 N p ( 12 )

在哪里Np在收集论文的总数,最后一个词代表一个随机跳。我们设置了四个参数,以便α+β+γ+δ+θ= 0.85,这意味着一个随机跳跃的概率是0.15。算法的迭代过程总结了15。

算法2:
www.雷竞技rebatfrontiersin.org

算法2:。影响评估(排名)

总之,上述论文排名算法遵循四个基本假设:(1)论文往往是重要的如果其他重要论文引用;(2)作者成为信誉如果他们的文章引用的重要文章,和尊重作者倾向于写高质量的文章;(3)顶级场馆(期刊和会议)倾向雷竞技电竞体育竞猜平台于发表的文章,和被引用的高质量文章给他们更高的影响;和(4)文章倾向于引用他人出于不同的目的,产生不同程度的引用相关性。引用被认为是高度相关的两篇论文是解决相关问题时,使用类似的方法,或分享共同的知识(Zhang et al ., 2019)。

3.6。面向解决方案的知识存储库(SKR)的一代

代SKR基于RP年代和PS年代获得的基于语义的信息提取模块和排名结果返回的论文影响评估模块。具体来说,RPs是用于生成相应的集群和链接PS根据关联规则。与此同时,PS连接到中央节点PS在每个集群基于排名按升序排序结果的影响评估过程。SKR最终呈现给用户的插图所示图3 b

图3
www.雷竞技rebatfrontiersin.org

图3。引文网络(一)提出了面向解决方案图(B)

值得一提的是,SKR不同于一个文献网络或引文网络,反映文献实体之间的社会关系或引用文件之间的关系。SKR进化从文献计量网络,更重要的是,它执行深入探索我论文的内容和解决方案从大规模的数据,针对问题进行解决方案的建议。比较一个引文网络(文献网络)和热议见图3在这一Rn是指相应的排名位置PS在自己的集群。热议之前的最后陈述一个简洁的设计。

4所示。案例研究和示范

4.1。数据集和预处理

入侵检测在网络安全的研究领域被选为测试S4原型由于网络安全问题是伟大的人类目前面临的挑战,并将继续这样做。据报道,有关网络犯罪的研究,大量的经济损失已经造成的网络安全事件和犯罪,这数量预计将产生如果不采取适当的措施(摩根,2018;比塞尔和6,2019)。考虑到入侵可能会导致巨大的经济损失,入侵检测领域被选中作为测试和演示。

斯高帕斯是用来收集论文和文献数据来源。通过应用和利用斯高帕斯API键,一个Python程序开发爬学术斯高帕斯数据库的数据。得到了1358篇相关论文在入侵检测领域。这些论文的文献数据包含4493个作家,1331年出版包括期刊和会议场所。雷竞技电竞体育竞猜平台论文中的引用集合是通过收集1358篇论文的引用和引用,并删除这些引用和引用论文收集的范围之外。

为了进一步处理收集到的论文,另一个程序(Python)开发的PDF文档转换成TXT文件和每篇文章分成部分。将3.3节提出的基于语义的文本挖掘方法,RP年代和PSs表示提取入侵和检测解决方案通过使用自然语言工具包(NLTK)计划。

4.2。结果

实现一个原型系统S4根据拟议的框架,用于评估和演示。的部分视图生成SKR的研究提出入侵检测所示图4。指定的用户界面和功能的详细信息后的结果分析。

图4
www.雷竞技rebatfrontiersin.org

图4。的部分视图生成SKR入侵检测的研究领域。

我们生成的SKR框架不同于现有学术可视化。SKR,每个集群代表一个研究问题(中央节点)和可能的解决方案(周围节点与中心节点)从学术论文中提取。对于一个研究领域,可以生成多个集群的数量取决于研究问题挖掘论文。在入侵检测的演示例子,研究问题RPs是各种类型的入侵如DOS(蓝色)、DDOS(绿色),僵尸网络(粉红色)和探测器(靛蓝)引用一些,和周围的方块表示解决方案(或技术)提出解决相应的入侵。

SKR提出一个简洁直观的方式,更重要的是,重建研究问题之间的内在关系,提出了有效的解决方案和结构的知识存储库用户推荐。给出解决方案的意义问题,学术界和产业界的库中显示了巨大的潜力。此外,S4原型集成实现一些辅助功能如发现经常讨论的话题,发现关键研究问题还没有完全解决。这些功能使系统有一定的数据分析能力,进一步提供知识相关分析结果。

S4的进步也强调了在它的效率和自动化。表1显示了一个比较S4之间的时间消耗和知识学习的传统方式,依赖于人类搜索和研究大量的文章。在案例研究中,产生最终的知识存储库的处理时间对入侵检测是大约12分钟,和在此期间的1358篇论文已被处理。必须澄清,大多数时间是在计算引用使用语义相关性是程序生成的加权HBG W-Rank论文排名算法。可以显著减少处理时间约1分钟当选择经典的网页排名算法(我们系统中提供一个选项),然而,排名精度受到影响。除了排名解决每个问题,S4还提供一个总复习的问题和解决方案。然而,这将是压倒性的人类在有限的一段时间。

表1
www.雷竞技rebatfrontiersin.org

表1。对比S4自动化和手动学习。

对于输出,S4生成格式化的知识存储库,允许灵活的用户操作,如编辑、添加笔记,存储和下载。除了所有这些属性,S4的主要贡献是它自动生成面向解决方案的知识地图检索学术文章,这是一个独特的功能比其他学术推荐系统。

4.3。S4原型演示

实现的原型和用户界面(UI)设计涉及许多编程语言,包括超文本标记语言(HTML)、级联样式表(CSS)和Javascript (JS),和几个库,包括JSON和视觉符号OWL本体(VOWL)。目前的原型是本地服务器上运行。系统界面所示图5。SKR显示在主面板和互动。顶部右侧,一个节点描述面板将显示任何所选节点的详细信息。评论面板放置在正确的底部对节点和用户留言查看现有的评论。

图5
www.雷竞技rebatfrontiersin.org

图5。S4的用户界面原型。

建议在底部面板设计提供分析和建议索引。这个面板是向用户提供解决方案排名结果和建议。这个函数是通过利用文献信息的文章PS年代和RP提取。三个排名显示底部的S4界面默认情况下所示图5和总9文献索引是用来收集到的解决方案所示图6。首先,引用计数被选中,因为它是最被广泛接受的和简单的方法来衡量学术文章的重要性。次引用的一篇文章,这篇文章被认为持有价值。其次,提出W-Rank算法能够生成分数对应的文章PS知识地图中的节点并相应地排名。更大的分数获得的一篇文章,文章的意义就越大。W-Rank算法系统考虑采用多种文献因素包括引用(引用相关性),作者(作者的贡献),出版,出版时间,如方程(12),而不是只考虑论文被引用次数。经典的PageRank算法也可以排名比较的文章。第三,信息相应的期刊和作者排名也是为了帮助用户做出合理的决策。雷竞技电竞体育竞猜平台文章出版,收到评论的数量收集并公开给用户。

图6
www.雷竞技rebatfrontiersin.org

图6。S4的建议面板原型。

5。结论和未来的工作

巨大的和越来越多的学术文章已经创建了“大文学”,为推进科学研究带来了巨大的机遇,同时上涨的困难为读者寻找有价值的解决问题的知识,他们的利益。为了应对这个问题,从学术文章和检索科学解决方案的系统提供面向解决方案的建议是必需的,然而现有文献中一直被忽视。在这项研究中,我们提出一个框架来构建面向解决方案的知识存储库(SKR)基于语义信息提取和文献图知识评价算法。采用提议SKR框架,学术的解决方案支持系统(S4)原型开发生产中的SKR简洁、有意义的和直观的方式,建议科学解决方案基于它们的影响。S4原型已经在入侵检测领域,测试结果验证了S4的效率和有效性,证明了它在学术界和产业界潜在价值。自动信息检索和知识学习的过程,因此,帮助用户在减少他们的学习工作负载和时间。

未来扩展本研究将集中在一个文档过滤模块的设计来源纸清洗和去噪,提高论文的质量应用于知识挖掘。通过这样做,可以删除无关紧要或低质量的文章来生成一个更精确的知识存储库,以及减少处理时间。此外,目前示范不够大的数据集,这是本研究的一个限制。在我们未来的工作,我们将扩大在其他研究领域的数据集或混合字段验证提出方法的普遍适用性。

数据可用性声明

在这项研究中生成的数据集是可在请求相应的作者。

作者的贡献

YZ提出了概念框架和系统设计。MW和女士也促成了框架设计。YZ MW起草了这份手稿和数字。YZ MW进行案例研究和实验。MW发达排名算法。女士和EC提供监督和支持。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

引用

阿黛尔,j·G。,Vohr一个,N。(2003). The explosion of knowledge, references, and citations: psychology's unique response to a crisis.点。Psychol。58岁的15 - 23。0003 - 066 - x.58.1.15 doi: 10.1037 /

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Arapakis,我。,le我va, L. A., and Cambazoglu, B. B. (2015). “Know your onions: understanding the user experience with the knowledge module in web search,” in《24日ACM国际会议信息和知识管理,CIKM 15(纽约:ACM), 1695 - 1698。

谷歌学术搜索

m·巴拉,(2010)。对类似的用户建模和个性化(博士论文)。斯洛伐克布拉迪斯拉发技术大学布拉迪斯拉发,欧洲。

谷歌学术搜索

分为上下,j . (2015)。对有效的研究论文推荐系统和用户基于思维导图的建模(博士论文)。奥托·冯·Guericke马格德堡大学,德国马格德堡。

谷歌学术搜索

Bethard, S。,Jurafsky, D. (2010). “Who should I cite: learning literature search models from citation behavior,” in19 ACM国际会议的程序信息和知识管理(多伦多:ACM), 609 - 618。

谷歌学术搜索

比塞尔,K。,Pone米on,l。(2019).第九次年度网络犯罪研究的成本。网上:https://www.accenture.com/us-en/insights/security/cost-cybercrime-study(2019年6月13日访问)。

伯克,r (2002)。混合推荐系统:调查和实验。用户适应用户模型。交互。12日,331 - 370。doi: 10.1023 /: 1021240730564

CrossRef全文|谷歌学术搜索

江诗丹顿,。、Pettifer年代。,Voronkov, A. (2013). “PDFX: Fully-automated PDF-to-XML conversion of scientific literature,” in文档工程学报2013年ACM研讨会(弗洛伦斯:ACM), 177 - 180。

谷歌学术搜索

Gangemi,。,Draicchio, F., Presutti, V., Nuzzolese, A. G., and Reforgiato, D. (2013). “A machine reader for the semantic web,” in第12届国际语义Web研讨会论文集(海报&示威活动跟踪),149 - 152。网上:http://ceur-ws.org/

谷歌学术搜索

Gipp B。,Beel, J. (2009). “Citation proximity analysis (cpa) : a new approach for identifying related work based on co-citation analysis,” in学报》第12届国际科学计量学与情报计量学会议艾德·b·拉森(所以保罗:古代船/帕诺人/人),571 - 575。

谷歌学术搜索

黄。,W一个n,X。(2013). “Akminer: domain-specific knowledge graph mining from academic literatures,” in网络信息系统工程学报》(WISE)(柏林;海德堡:Springer), 241 - 255。

谷歌学术搜索

Iyengar: c . s . N。Ganapathy, G。,Mogan Kumar, P., and Abraham, A. (2014). A multilevel thrust filtration defending mechanism against ddos attacks in cloud computing environment.Int。j .网格跑龙套。第一版。5,236 - 248。doi: 10.1504 / IJGUC.2014.065384

CrossRef全文|谷歌学术搜索

杰克,k (2012)。Mendeley:学术文献的推荐系统。在格拉茨工业大学(拉)。

老挝,N。,Cohen,W。W。(2010). Relational retrieval using a combination of path-constrained random walks.马赫。学习。81年,53 - 67。doi: 10.1007 / s10994 - 010 - 5205 - 8

CrossRef全文|谷歌学术搜索

勒,t . m . V。,l一个uw,H。W。(2017). “Semvis: semantic visualization for interactive topical analysis,” in学报2017 ACM会议信息和知识管理,CIKM 17(纽约:ACM), 2487 - 2490。

谷歌学术搜索

妈,X。,lu,H。,和G一个n,Z。 (2014). “Improving recommendation accuracy by combining trust communities and collaborative filtering,” in学报》第23届ACM国际会议会议信息和知识管理,CIKM 14(纽约:ACM), 1951 - 1954。

谷歌学术搜索

Monnich, M。,年代p我er我ng, M. (2008). Adding value to the library catalog by implementing a recommendation system.D自由Magaz。14日,1082 - 9873。doi: 10.1045 / may2008-monnich

CrossRef全文|谷歌学术搜索

摩根,美国(2018年)。网络犯罪在2021年损失6万亿美元。网上:——2021/ https://cybersecurityventures.com/cybercrime -破坏- 6万亿(2019年6月13日访问)。

Nuzzolese, a·G。,Peroni年代。,Reforgiato Recupero, D. (2016). “ACM: article content miner for assessing the quality of scientific output,” in诉讼第三SemWebEval挑战ESWC 2016eds a·g·Nuzzolese s . Peroni, d . Reforgiato Recupero (Cham:施普林格国际出版),281 - 292。

谷歌学术搜索

Perez-Arriaga, m . O。埃斯特拉达,T。,一个bad-Mota, S. (2016). “TAO: system for table detection and extraction from PDF documents,” in佛罗里达29日国际人工智能研究学会学报(眼光)会议(Palo Alto, CA: AAAI出版社),591 - 596。

谷歌学术搜索

Pilehvar, m . T。更加与众不同,D。,N一个vigli, R. (2013). “Align, disambiguate and walk: a unified approach for measuring semantic similarity,” in学报》第51计算语言学协会年会(卷1:长论文)(保加利亚:计算语言学协会),1341 - 1351。

谷歌学术搜索

里奇,F。,Rokach, L., and Shapira, B. (eds.). (2015). “Recommender systems: introduction and challenges,” in推荐系统手册(波士顿,MA: Springer)。doi: 10.1007 / 978 - 1 - 4899 - 7637 - 6 _1

CrossRef全文|谷歌学术搜索

丰富、大肠(1979)。用户建模通过刻板印象。Cogn。科学。3,329 - 354。doi: 10.1207 / s15516709cog0304_3

CrossRef全文|谷歌学术搜索

顿,g (1970)。自动文本分析。科学168年,335 - 343。doi: 10.1126 / science.168.3929.335

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Shahaf D。,Gue年代tr我n,C。,和Horvitz, E. (2012). “Metro maps of science,” in18 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,知识发现(KDD) 12(纽约:ACM), 1122 - 1130。

谷歌学术搜索

Shotton, d . (2009)。“急速地,引用类型本体,其使用注释的引用列表和可视化引文网络,”2009年诉讼Bio-Ontologies特殊利益集团的会议:在生物学知识(斯德哥尔摩)。

谷歌学术搜索

Sosnovsky, S。,Dicheva, D. (2010). Ontological technologies for user modelling.Semant Int。j .元数据。Ontol。5,1744 - 2621。doi: 10.1504 / IJMSO.2010.032649

CrossRef全文|谷歌学术搜索

棕褐色,Z。,l我u,C。,Mao, Y., Guo, Y., Shen, J., and Wang, X. (2016). “AceMap: a novel approach towards displaying relationship among academic literatures,” in美国25日国际会议的同伴在万维网上(蒙特利尔,QC:国际万维网会议指导委员会),437 - 442。doi: 10.1145/2872518.2890514

CrossRef全文|谷歌学术搜索

唐,J。,Zh一个ng, J., Yao, L., Li, J., Zhang, L., and Su, Z. (2008). “Arnetminer: Extraction and mining of academic social networks,” in第14届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,08年KDD(纽约:ACM), 990 - 998。

谷歌学术搜索

道,S。,W一个ng, X., Huang, W., Chen, W., Wang, T., and Lei, K. (2017). “From citation network to study map: a novel model to reorganize academic literatures,” in学报》第26届国际会议上万维网的伙伴(佤邦珀斯:国际万维网会议指导委员会),1225 - 1232。

谷歌学术搜索

Tkaczyk D。,年代zostek, P., Fedoryszak, M., Dendek, P. J., and Bolikowski, L. (2015). CERMINE: automatic extraction of structured metadata from scientific literature.Int。j . Doc。肛交。Recog。18日,317 - 335。doi: 10.1007 / s10032 - 015 - 0249 - 8

CrossRef全文|谷歌学术搜索

Van Eck: J。,W一个ltman, L. (2010). Software survey: vosviewer, a computer program for bibliometric mapping.科学计量学84年,523 - 538。doi: 10.1007 / s11192 - 009 - 0146 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

杨,C。,We我,B., Wu, J., Zhang, Y., and Zhang, L. (2009). “CARES: a ranking-oriented CADAL recommender system,” in学报》第九届ACM / ieee cs联合数字图书馆会议(奥斯汀,得克萨斯州),203 - 212。doi: 10.1145/1555400.1555432

CrossRef全文|谷歌学术搜索

Zarrinkalam F。,Kahani, M. (2013). Semcir: a citation recommendation system based on a novel semantic distance measure.程序47岁,92 - 112。doi: 10.1108 / 00330331311296320

CrossRef全文|谷歌学术搜索

张,L。,Färber, M., and Rettinger, A. (2016). “Xknowsearch!: exploiting knowledge bases for entity-based cross-lingual information retrieval,” in学报》第25届ACM国际会议信息和知识管理,CIKM 16(纽约:ACM), 2425 - 2428。

谷歌学术搜索

张,Y。,年代一个beri, M., and Chang, E. (2018). A semantic-based knowledge fusion model for solution-oriented information network development: a case study in intrusion detection field.科学计量学117年,857 - 886。doi: 10.1007 / s11192 - 018 - 2904 - 6

CrossRef全文|谷歌学术搜索

张,Y。,W一个ng, M., Gottwalt, F., Saberi, M., and Chang, E. (2019). Ranking scientific articles based on bibliometric networks with a weighting scheme.j . Informetr。13日,616 - 634。doi: 10.1016 / j.joi.2019.03.013

CrossRef全文|谷歌学术搜索

关键词:知识仓库,大学术数据,推荐系统,文本挖掘,文献计量学

引用:王张Y, M,萨贝里M和嫦娥(2019)从大学术数据面向解决方案的知识存储库。前面。大数据2时38分。doi: 10.3389 / fdata.2019.00038

收到:2019年8月31日;接受:2019年10月15日;
发表:2019年10月31日。

编辑:

冯夏大连理工大学(DUT),中国

审核:

菲利普·迈尔社会科学研究所,gesi莱布尼茨,德国
Xiangjie香港大连理工大学(DUT),中国
江李、南京大学、中国

版权©2019张,王,萨贝里和张。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:张昱,yu.zhang@adfa.edu.au

下载