「知识图谱」基础

2023-01-06 0 592

本该文部份参照:南京大学科学知识图表路径陈华钧副教授的短文及幻灯片,热烈欢迎高度关注研究组中文网站:

和b站的专业课程短文

【Bilibili】南京大学副教授【科学知识图表讲座】讲课艺术风格一气呵成,没有专业术语!www.bilibili.com/video/BV1KB4y1j7UY/?spm_id_from=333.337.search-card.all.click&vd_source=5d4398eeab76b0a17feb1aa608f14695「知识图谱」基础

科学知识图表的表述

在计算机系统当今世界中,结点和边的记号透过“记号Haon(symbol grounding)”表观力学当今世界和知觉当今世界中的第一类,并做为相同子代对知觉当今世界中重要信息和科学知识展开叙述和互换的公路桥。此种采用标准化方式叙述的科学知识叙述架构易于科学知识的撷取与借助。

1.科学知识图表主要就最终目标是用以叙述真实当今世界中存有的各式各样虚拟和基本概念,和她们间的强亲密关系,他们用亲密关系去叙述两个虚拟间的关连,比如易建联和尼克斯队间的亲密关系,她们的优点,他们就用“优点–值对“来刻划它的外在优点,比如他们的人物形象,他有年纪、身高、体重优点。

2.科学知识图表能透过数人构筑与表述,去叙述各式各样基本概念间的弱亲密关系,比如:“忘了克雷皮县”和“寻回克雷皮县”间的亲密关系

科学资料库的基本概念

1.1. 科学资料库的五大类

科学资料库现阶段能分成三种类别:Curated KBs 和 Extracted KBs

Curated KBs:以yago2和freebase为代表者,她们从维基和WordNet等科学资料库抽出了大批的虚拟及虚拟亲密关系,能把它认知城一类方式化的维基。

Extracted KBs:主要就是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)为代表者,她们间接从上万个页面中抽出虚拟亲密关系三元组。与freebase相比,这样得到的虚拟科学知识更具有多样性,而它们的虚拟亲密关系和虚拟更多的则是自然语言的方式,如“易建联出生于上海。” 能被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。间接从页面中抽出出来的科学知识,也会存有一定的噪声,其精确度低于Curated KBs。

现阶段行业内采用的比较多的还是Curated KBs,主要就是因为Curated KBs比较简单,容易构筑,噪音少。

他们能按如下方法分:

1.2. 科学资料库的种类

语言科学知识图表

主要就是存储人类语言方面的科学知识,其中比较典型是英文词 汇科学知识图表WordNet,它由同义词集和叙述同义词集间的亲密关系构成。常识科学知识图表

主要就有 Cyc和 ConceptNet等。其中 Cyc 由大批虚拟和 亲密关系和支持推理的常识规则构成;ConceptNet 由大批基本概念和叙述 它们间亲密关系的常识构成。语言知觉科学知识图表

中文知网词库HowNet是一种典型的语言知觉科学知识图表(语言知觉科学知识与常识科学知识区别不大,因为语言是人类表达和互换重要信息的主要就载体),HowNet致力于叙述知觉当今世界中人们对词语基本概念的认知,基于词语义原,揭示词语的更小语义单元的含义。领域科学知识图表

针对特定领域构筑的科学知识图表,专门为特定的领域服务, 比如:医学科学知识图表 SIDER(Side Effect Resource) ,电影科学知识图表 IMDB (Internet Movie Database),音乐科学知识图表MusicBrainz等,这些科学知识图表在各自的领域都有着广泛的应用。百科科学知识图表

主要就以 Linked Open Data (LOD)项目支持的开放科学知识 图表为核心,主要就有 Freebase、DBpedia、YAGO和Wikidata等,它们在重要信息检索、问答系统等任务中有着重要应用。

2.1. 早期的科学资料库项目

Cyc: Cyc是持续时间最久,影响范围较广,争议也较多的科学资料库项目。Cyc是在1984年由Douglas Lenat开始创建。最初的最终目标是要建立人类最大的常识科学资料库。典型的常识科学知识如”Every tree is a plant” ,”Plants die eventually”等。Cyc科学资料库主要就由术语Terms和断言Assertions组成。Terms包含基本概念、亲密关系和虚拟的表述。Assertions用以建立Terms间的亲密关系,这既包括事实Fact叙述,也包含规则Rule的叙述。最新的Cyc科学资料库已经包含有50万条Terms和700万条Assertions。 Cyc的主要就特点是基于方式化的科学知识表示方法来刻划科学知识。方式化的优势是能支持复杂的推理。但过于方式化也导致科学资料库的扩展性和应用的灵活性不够。Cyc提供开放版本OpenCyc。

WordNet:WordNet是最著名的词典科学资料库,主要就用于词义消歧。WordNet由普林斯顿大学认识科学实验室从1985年开始开发。WordNet主要就表述了名词、动词、形容词和副词间的语义亲密关系。比如名词间的上下位亲密关系(如:“猫科动物”是“猫”的上位词),动词间的蕴含亲密关系(如:“打鼾”蕴含着“睡眠”)等。WordNet3.0已经包含超过15万个词和20万个语义亲密关系。

ConceptNet:ConceptNet是常识科学资料库。最早源于MIT媒体实验室的Open Mind Common Sense (OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立。ConceptNet主要就依靠互联网众包、专家创建和游戏三种方法来构筑。ConceptNet科学资料库以三元组方式的亲密关系型科学知识构成。ConceptNet5版本已经包含有2800万亲密关系叙述。与Cyc相比,ConceptNet采用了非方式化、更加接近自然语言的叙述,而不是像Cyc那样采用方式化的谓词逻辑。与链接数据和谷歌科学知识图表相比,ConceptNet比较侧重于词与词间的亲密关系。从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的亲密关系类别多。此外,ConceptNet完全免费开放,并支持多种语言。

2.2. 语义网与科学知识图表

今,涌现出大批以互联网资源为此基础的新一代科学资料库。这类科学资料库的构筑方法能分成三类:互联网众包、专家协作和互联网挖掘。

Freebase: Freebase是一个开放共享的、协同构筑的大规模链接数据库。F的一个特点是不对顶层本体做非常严格的控制,用户能创建和编辑类和亲密关系的表述。2016年,谷歌宣布将Freebase的数据和API服务都迁移至Wikidata,并正式关闭了Freebase。

DBPedia: DBPedia是早期的语义网项目。DBPedia意指数据库版本的Wikipedia,是从Wikipedia抽出出来的链接数据集。DBPedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类表述。此外,DBPedia还与Freebase,OpenCYC、Bio2RDF等多个数据集建立了数据链接。DBPedia采用RDF语义数据模型,总共包含30亿RDF三元组。

Schema.org:http://Schema.org是2011年起,由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。http://Schema.org支持各个中文网站采用语义标签(Semantic Markup)的方式将语义化的链接数据嵌入到页面中。搜索引擎自动搜集和归集这些,快速的从页面中抽出语义化的数据。http://Schema.org提供了一个词汇本体用于叙述这些语义标签。截止现阶段,这个词汇本体已经包含600多个类和900多个亲密关系,覆盖范围包括:个人、组织机构、地点、时间、医疗、商品等。谷歌于2015年推出的定制化科学知识图表支持个人和企业在其页面中增加包括企业联系方法、个人社交重要信息等在内的语义标签,并透过此种方式快速的汇集高质量的科学知识图表数据。截止2016年,谷歌的一份统计数据显示,超过31%的页面和1200万的中文网站已经采用了http://Schema.org发布语义化的链接数据。其它采用了部份http://Schema.org功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等。http://Schema.org的本质是采用互联网众包的方式生成和收集高质量的科学知识图表数据。

WikiData: WikiData的最终目标是构筑一个免费开放、多语言、任何人或机器都能编辑修改的大规模链接科学资料库。WikiData由维基于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会和Google的联合资助。WikiData继承了Wikipedia的众包协作的机制,但与Wikipedia相同,WikiData支持的是以三元组为此基础的科学知识条目(Items)的自由编辑。一个三元组代表者一个关于该条目的陈述(Statements)。比如能给“地球”的条目增加“<地球,地表面积是,五亿平方公里>”的三元组陈述。截止2016年,WikiData已经包含超过2470多万个科学知识条目。

BabelNet:BabelNet是类似于WordNet的多语言词典科学资料库。BabelNet的最终目标是解决WordNet在非英语语种中数据缺乏的问题。BabelNet采用的方法是将WordNet词典与Wikipedia百科集成。首先建立WordNet中的词与Wikipedia的页面标题的映射,然后借助Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇。BabelNet3.7包含了271种语言,1400万同义词组,36.4万词语亲密关系和3.8亿从Wikipedia中抽出的链接亲密关系,总计超过19亿RDF三元组。 BabelNet集成了WordNet在词语亲密关系上的优势和Wikipedia在多语言语料方面的优势,构筑成功了现阶段最大规模的多语言词典科学资料库。

NELL:NELL(Never-Ending Language Learner) 是卡内基梅隆大学开发的科学资料库。NELL主要就采用互联网挖掘的方法从Web自动抽出三元组科学知识。NELL的基本理念是:给定一个初始的本体(少量类和亲密关系的表述)和少量样本,让机器能够透过自学习的方式不断的从Web学习和抽出新的科学知识。现阶段NELL已经抽出了300多万条三元组科学知识。

YAGO: YAGO是由德国马普研究所研制的链接数据库。Y系。YAGO还考虑了时间和空间科学知识,为很多科学知识条目增加了时间和空间维度的优点叙述。现阶段,YAGO包含1.2亿条三元组科学知识。YAGO是IBM Watson的后端科学资料库之一。

Microsoft ConceptGraph:ConceptGraph是以基本概念层次体系为中心的科学知识图表。与Freebase等科学知识图表相同,ConceptGraph以基本概念表述和基本概念间的IsA亲密关系为主。给定一个基本概念如“Microsoft”,ConceptGraph返回一组与“微软”有IsA亲密关系基本概念组,如:“Company”,“Software Company”,“Largest OS Vender”等。这被称为基本概念化“Conceptualization”。ConceptGraph能用于短文本认知和语义消歧中。比如,给定一个短文本“the engineer is eating the apple”,能借助ConceptGraph来正确认知其中“apple”的含义是“吃的苹果”还是“苹果公司”。微软发布的第一个版本包含超过540万的基本概念,1255万的虚拟,和8760万的亲密关系。ConceptGraph主要就透过从互联网和网络日志中挖掘来构筑。

LOD-Linked Open Data:LOD的初衷是为了实现Tim Berners-Lee在2006年发表的有关链接数据(Linked Data)做为语义网的一类实现的设想。LOD遵循了Tim提出的展开数据链接的四个规则,即:(1)采用URI标识万物;(2)采用HTTP URI,以便用户能(像访问页面一样)查看事物的叙述;(3)采用RDF和SPARQL标准;(4)为事物添加与其它事物的URI链接,建立数据关连。截止现阶段,LOD已经有1143个链接数据集,其中社交媒体、政府、出版和生命科学四个领域的数据占比超过90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是dbpedia的数据。比较常用的链接类别包括:foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch等。LOD鼓励各个数据集采用公共的开放词汇和术语,但也允许采用各自的私有词汇和术语。在采用的术语中,有41%是公共的开放术语。

3.1. 什么是科学资料库

a)“易建联出生于上海”

b)“易建联是篮球运动员”

c)“易建联是现任中国篮协主席”

的科学知识是由非方式化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机系统处理。

「知识图谱」基础

3.2.科学资料库的表示方式

为了方便计算机系统的处理和认知,他们需要更加方式化、简洁化的方式去表示科学知识,那就是三元组(triple)。

“易建联出生于中国上海” 能用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里他们能简单的把三元组认知为(虚拟entity,虚拟亲密关系relation,虚拟entity)。如果他们把虚拟看作是结点,把虚拟亲密关系(包括优点,类别等等)看作是一条边,那么包含了大批三元组的科学资料库就成为了一个庞大的科学知识图。

有些时候会将虚拟称为topic,如Justin Bieber。虚拟亲密关系也可分成三种,一类是优点property,一类是亲密关系relation。如下图所示,优点和亲密关系的最大区别在于,优点所在的三元组对应的三个虚拟,常常是一个topic和一个字符串,如优点Type/Gender,对应的三元组(Justin Bieber, Type, Person),而亲密关系所在的三元组所对应的三个虚拟,常常是三个topic。如亲密关系PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。

「知识图谱」基础
(图中蓝色方块表示topic,橙色椭圆包括优点值,它们都属于科学资料库的虚拟;蓝色直线表示亲密关系,橙色直线表示优点,它们都统称为科学资料库的虚拟亲密关系,都能用三元组刻划虚拟和虚拟亲密关系)

3.3.科学资料库的数据结构

这里只是简单介绍一下数据结构,科学知识表达这一块会在《科学知识图表此基础(二)-科学知识图表的科学知识表达系统》中详细讲解。

读者只要记住,freebase的此基础科学知识表达方式:(虚拟)-[亲密关系]-(虚拟),(虚拟)-[亲密关系]-(值)即可,参照图3,易建联和叶莉的亲密关系。

「知识图谱」基础

科学知识图表的科学知识表达系统

1.科学知识体系的构筑

指采用什么样的方式表达科学知识,其核心是构筑一个本体对最终目标科学知识展开叙述。

输入:领域(医疗、金融…)、应用场景

输出:领域科学知识本体

关键技术:Ontology Engineering

做为语义网的应用,科学知识图表的科学知识建模采用语义网的科学知识建模方式,分成基本概念、亲密关系、基本概念亲密关系三元组三个层次,并借助资源叙述架构(RDF)展开叙述。RDF 的基本数据模型包括了三个第一类类别:

资源

能够采用RDF表示的第一类称之为资源,包括互联网上的虚拟、事件和 基本概念等。谓词 (Predicate)

主要就叙述资源本身的特征和资源间的亲密关系。每一个谓词能表述元科学知识,比如,谓词的头尾部数据值的类别(如表述域和值域)、谓词与其他谓词的亲密关系(如逆亲密关系)。陈述 (Statements)

一条陈述包含三个部份,通常称之为RDF三元组<主体(subject),谓词(predicate),宾语(object)>。其中主体是被叙述的资源,谓词能表示主体的优点,也能表示主体和宾语间关系。当表示优点时,宾语就是优点值;当表示亲密关系时,宾语也是一个资源。

2.三元组

《科学知识图表此基础(一)-什么是科学知识图表》中讲到了以freebase为代表者的curated KBs的本质上是三元组,下面会来讲解三元组的基本组成部份。

虚拟(Entity):虚拟是对客观子代的抽象,一个人、一部电影、一句话都能看作是一个虚拟。比如:易建联,李安,我不是潘金莲

类别(type/class):类别是对具有相同特点或优点的虚拟集合的抽象。

举例:中国是一个虚拟,美国是一个虚拟,法国是一个虚拟。这些虚拟都有首都、人口、面积等共同特征,因此比如像中国、美国、法国等都有首都、人口、面积等特征的虚拟能抽象为“国家”类别

优点(property):优点是对虚拟与虚拟间亲密关系的抽象,比如李安是一个虚拟,李安是一个人物形象(type),少年派的奇幻漂流是一个虚拟,少年派的奇幻漂流是一个电影(type),很明显三个虚拟间存有着亲密关系即为:李安→导演→少年派的奇幻漂流因此李安与少年派的奇幻漂流间的亲密关系能用优点“导演”刻划。那么能根据优点构筑一层亲密关系,人物形象(type)→导演(property)→电影(type)。

亲密关系(relation):亲密关系是虚拟与虚拟间亲密关系的抽象,李安(entity)→导演(relation)→少年派的奇幻漂流(entity),导演这个relation则是叙述李安和少年派的奇幻漂流的亲密关系。

3. schema & Ontology

Ontology指的是科学知识图表中的本体,Schema指的是数据库中的模式

其中Ontology主要就用于共享科学知识和事实,辅助交互、搜索、AI应用。规模能很大,表述基本概念和亲密关系,具有基本概念层次,丰富的语义,并且支持推理。

Schema主要就用于方式化数据组织和管理,也支持查询。规模一般较小,无基本概念层次,无语义且不支持推理。语义网中Schema与ontology基本等同,能认为本体为科学知识图表提供了Schema。他们所提到的电信领域schema类似模糊了二者的边界,可等同于本体。

用于叙述一个领域的术语集合,其组织结构是层次方式化的,能做为一个科学资料库的骨架和此基础,是对特定领域基本概念和基本概念间亲密关系的方式化表达,是科学知识的抽象,文献中可能用Classes或Concept来表示。其更多的是叙述high-level的基本概念及其亲密关系(比如subclass等),而科学知识图表更偏重于叙述与实际业务需求相关的基本概念、虚拟及其亲密关系。但如果引入一个meta ontology,那么本体里面的class又可视为instance。所以,class和instance 的界限并不是严格的。本体典型用途是推理;KG则用于查询。

虚拟是本体、实例及亲密关系的整合,虚拟形成的数据库叫做科学资料库。

科学知识图表(KG)是一类图表组织方式,透过语义关连把各式各样虚拟关连起来。其把方式化、非方式化的数据透过数据抽出、融合在一起,体现了数据治理、语义连接的思想,有利于大规模数据的借助和迁移。科学资料库由本体约束下的实例组成。能认为:科学知识图表=本体+科学资料库。

2. schema & 和客观性、完全性、一致性、最大单调可扩展性、最小承诺、最小编码偏差。兄弟基本概念间语义差别尽可能小、采用多样的基本概念层次结构实现多继承机制、尽可能采用标准化术语名称。

4. 科学知识存储和查询

因为现阶段科学知识图表大多是基于图的数据结构,它的存储方式 主要就有三种方式:

RDF 格式存储:以三元组的方式存储数据图数据库 (Graph Database)输入:大规模科学资料库科学知识

输出:科学资料库存储和查询服务

主要就技术:科学知识表示;科学知识查询语言;存储/检索引擎

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务