JAVA语言知识图谱构建及应用研究文献综述

 2023-08-04 06:08
  1. 文献综述(或调研报告):

知识图谱(Knowledge Graph)的概念最早由谷歌2012年正式提出,在谷歌于2012年发布知识图谱之前,Tim Berners-Lee于2006年就提出了Linked Data[2],是一种万维网数据上创建语义关联的方法。知识图谱多见于图书情报领域,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段[1]。

就覆盖范围而言,知识图谱也可分为通用知识图谱和行业知识图谱。通用知识图谱注重广度,强调融合更多的实体,较行业知识图谱而言,其准确度不够高,并且受概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。行业知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员。在此,Java知识图谱应属于行业知识图谱服务于软件业界。

下面分别就知识图谱的表示方法和构建方法进行调研。

(1)知识图谱的表示方法

目前,三元组是知识图谱的一种通用表示方式,知识图谱可以表示为G=(E, R, S );其中E是知识库中的实体集合,E={e1, e2,hellip;,e|E|},可包含|E|种不同实体;R为知识库中的关系集合,R={r1, r2,hellip;,r|R|},共包含|R|种不同关系;S代表知识库中的三元组集合,Ssube;Etimes;Rtimes;E,三元组的基本形式主要包括(实体1、关系、实体2)和“(概念、属性、属性值)”[3]等。

实体是知识图谱中的最基本元素,实体指的是具有可区别性且独立存在的某种事物,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。[3]

知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(概念、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j[4]、Twitter的FlockDB[5]、sones的GraphDB[6]等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

(2) 知识图谱的构建

知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式[3]。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式[7]。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault[8]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。