JAVA语言知识图谱构建及应用研究文献综述-综述毕设网

文献综述（或调研报告）：

知识图谱（Knowledge Graph）的概念最早由谷歌2012年正式提出，在谷歌于2012年发布知识图谱之前，Tim Berners-Lee于2006年就提出了Linked Data[2]，是一种万维网数据上创建语义关联的方法。知识图谱多见于图书情报领域，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段[1]。

就覆盖范围而言，知识图谱也可分为通用知识图谱和行业知识图谱。通用知识图谱注重广度，强调融合更多的实体，较行业知识图谱而言，其准确度不够高，并且受概念范围的影响，很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建，具有特定的行业意义。行业知识图谱中，实体的属性与数据模式往往比较丰富，需要考虑到不同的业务场景与使用人员。在此，Java知识图谱应属于行业知识图谱服务于软件业界。

下面分别就知识图谱的表示方法和构建方法进行调研。

（1）知识图谱的表示方法

目前，三元组是知识图谱的一种通用表示方式，知识图谱可以表示为G=（E， R， S ）；其中E是知识库中的实体集合，E=｛e1， e2，hellip;，e|E|｝，可包含|E|种不同实体；R为知识库中的关系集合，R=｛r1， r2，hellip;，r|R|｝，共包含|R|种不同关系；S代表知识库中的三元组集合，Ssube;Etimes;Rtimes;E，三元组的基本形式主要包括（实体1、关系、实体2）和“（概念、属性、属性值）”[3]等。

实体是知识图谱中的最基本元素，实体指的是具有可区别性且独立存在的某种事物，不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等；属性主要指对象可能具有的属性、特征、特性、特点以及参数，例如国籍、生日等；属性值主要指对象指定属性的值，例如中国、1988-09-08等。每个实体（概念的外延）可用一个全局唯一确定的ID来标识，每个属性-属性值对（attribute-value pair，AVP）可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。[3]

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用（实体1，关系，实体2）、（概念、属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j［4］、Twitter的FlockDB［5］、sones的GraphDB［6］等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

（2）知识图谱的构建

知识图谱主要有自顶向下（top-down）与自底向上（bottom-up）两种构建方式[3]。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。自底向上指的是从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式［7］。目前，大多数知识图谱都采用自底向上的方式进行构建，其中最典型就是Google的Knowledge Vault［8］。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

JAVA语言知识图谱构建及应用研究文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章