返回 登录
0

知识图谱数据库将人类的思维路径转化为机器的路径思维


图片描述
网络用图,出处不明

前段时间被沙特阿拉伯授予公民身份的人形机器人“索菲亚”,再一次颠覆了人们对人工智能技术的认知。

“索菲亚”多次与人类交锋并公开发表言论的过程中,我们感受到了基本的对答如流,有时甚至还可以做到妙语连珠。

据了解,索菲亚的大脑存储在云端,通过连接WIFI实现链接,但是由于通用领域的语义范畴太过广泛,云端知识库还需要不断充实、训练以及优化,但不得不说人形机器人背后的知识图谱技术已经发展的相对成熟。

未来一段时间,知识图谱还将是大数据智能的前沿研究,无论是实体链指,关系抽取,还是知识推理、知识表示、知识融合……如何有效实现通过知识图谱提高计算效率,探索更多应用场景和新的应用算法都是亟待被深入研究的课题。

解决企业数据问题,知识图谱首当其冲

知识图谱最初是由谷歌提出用来优化搜索引擎的技术,在不断发展中外延也一度扩大。盘点目前知识图谱的发展,其实已经助力了很多热门的人工智能场景的应用,例如语音助手 Siri,聊天机器人,智能问答等。

明略数据技术合伙人孟嘉表示,现在的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等),知识图谱就是认知智能领域中主要的技术之一。

知识图谱将会被广泛应用,但企业级才刚刚起步!如今企业对于数据处理和数据价值挖掘都十分重视,但由于数据总量大且呈现类型多样化等特点,使许多关键数据背后的隐性关系并不能很好地被发现以及利用。我们认为知识图谱首当其冲能解决这些问题,一个从搜索出发却对数据分析与处理卓有成效的新技术!

孟嘉对记者表示,其实知识图谱描述的就是现实世界中的实体以及实体之间的关系,采用这种技术最关键的就是完成实体和关系的抽取。具体来说,也就是利用知识图谱将数据之间建立关联,让碎片化的数据不再零散。

如今一两年的时间内,无论是公共安全还是金融领域都开始慢慢接受知识图谱的概念,逐渐改变之前企业关于数据存储的传统方式,也就是数据仓库(BI)。本质上就是改变数据组织的形式,利用知识的组织形式完成行业数据逻辑性的保存。

落地企业级知识图谱,需要明确哪些问题?

什么样的数据可以放到知识图谱中呢?这个问题目前比较受关注。从构建行业知识图谱的基本流程中我们可以总结出一两点。

知识图谱的schema很灵活,我们一般称作统一视图。建立企业级知识图谱的第一步就是需要开发人员以及企业专家完成统一视图的构建。

接下来的一步才是数据治理。

将企业已有的数据治理存放到知识图谱中,这个过程我们可以发现,知识图谱存储针对结构化数据、半结构化数据以及非结构化数据都配有相应的工具。

由于知识图谱涉及到的技术关联很多,就意味着数据治理的过程比较复杂,需要解决很多关于结构化数据如何处理会高效快速以及数据处理结果如何转变为实体关系等诸多问题。

如果涉及到非结构化数据,其中的挑战会更大。孟嘉对此表示,我们在操作的过程中会从文本数据中抽取实体和关系,但其实这个过程不单单是抽取实体之间的关系,更重要的还会面对很多其他的NLP技术,例如实体语义消歧的工作。

当然还有一些数据并不适合直接放在知识图谱中,但却对知识的组织有帮助,这个怎么处理?通常会凭借外部链接的方式进行关联,其实知识图谱对数据的形式没有太多的要求,只要通过治理后符合规范就好,知识图谱适合存储多元异构的数据。

知识图谱与图数据库到底是什么关系?知识图谱的存储不等于图数据库的存储,孟嘉强调。

图数据库只是实现知识图谱存储使用到的技术之一,就像明略数据利用知识图谱进行数据存储时不单单采用了图数据库,还用了宽表、索引以及多级缓存,这是一种综合方式。“因为图数据库的数据组织形式是图,所以一般用来存储点和边,也就是实体和关系,然后存储网络结构。”孟嘉补充道。

相比于其他的存储形式,图数据库在做关联查询方面的表现极佳。正是由于其图的呈现形式以及数据结构,可以更好地展现现实生活中的复杂多样关系。说到这一点,相比之下传统环境中我们使用的关系型数据库,就有一些徒有其名了,在关系查询方面并没有显示出自身优势。

从优化搜索到助力数据分析与存储,知识图谱落地企业级应用的每个方面都面临很大挑战。例如知识构建,这个环节我们要将传统的数据治理成知识图谱,最重要的一个问题就是如何保证高效性。

面对结构化的数据处理,目前涉及到的是知识融合。例如传统行为中,完成对一个人的实体建模,可靠的数据源可能来自各个方面,需要解决的就是在不同方面和角度上完成对数据的融合,通过融合后的结果来进行人物刻画。

这个过程中很有可能出现数据的一些冲突,例如不同的图表中提取的数据会有差别。这就需要判断下哪个图表提取的数据更接近真实,默认形式如何表现,所以说这个融合的要求程度是很高的。

关于处理非结构化数据,面临的挑战就更多了。知识存储方面主要集中在,如果知识图谱达到一定量级后应该怎么办,这也是明略数据目前利用大数据技术在探索的重要领域之一。

谈到知识计算方面的挑战,孟嘉表示现在明略面对的知识图谱应用领域都会涉及比较大的图谱,例如公安或者金融,所以在图数据库选型方面还是基于hadoop。可想而知这个环节的挑战也不小!

此外,孟嘉提出,在知识推理方面也存在很多需要攻克的难点,当然这也是明略数据目前“专心研究”的方面之一。现在的知识推理发展并不成熟,涉及到规则、知识表示以及深度学习等,目前的探索也只是才迈出一两步,对于这方面,积极与高校沟通是比较重要的方法之一。

关于知识图谱,明略做了哪些尝试?

明略数据围绕知识图谱其实已经开展了“全链式”的探索和布局,例如数据治理、数据建模等方面,无论是结构化数据以及非结构化数据,都有相应的工具支持。

首发行业知识图谱数据库NEST

早在17年8月,明略数据就发布了业界第一款知识图谱的数据库,名叫蜂巢。是把数据抽象成实体关系,经过数据治理以后,把这些数据串联起来,其中数据库不单单负责存储,还有一些基于知识图谱的计算和推理。明略数据董事长吴明辉曾表示,知识图谱数据库是将人类的思维路径转化为机器的路径思维,这也是此款企业级知识图谱数据库的核心价值。

在这个基础上,明略数据构建三个行业大脑,分别涉及到金融、公安以及工业。核心就是在知识图谱数据库的基础上加入一些行业知识,以此为基础进行相关数据挖掘的工作。

据了解,作为专业支持知识存储并提供应用能力的数据库,蜂巢适配主流大数据IT架构,目前已成功在众多金融及公安客户处落地应用。其中在针对银行的对公营销、信贷风控、反欺诈、审计、合规以及证券的市场监察、风控领域等方面具备了大量的实践经验,同时还在不断拓宽和加深与业务场景结合的过程中。

关于选择知识图谱落地哪些具体行业场景的问题,孟嘉认为,比较重要的一点是行业内部运行时是否涉及到重复劳动。知识图谱最重要的一点就是改变这种劳动模式,让数据收集以及分析更轻松。

此外,行业中数据是否海量,是否有真正的大数据场景也很重要。比如我们熟知的公共安全和金融,数据量很大且丰富。公共安全系统中的人、车、地、物、组织、出行、住宿甚至是快递数据繁多,才形成了一个丰富数据的真正场景,只有在真正的大数据场景下,知识图谱的作用才能够更好显现。

需要注意的一点,知识图谱的操作交互还是比较复杂的,尤其是企业级的一些工具,例如传统的金融中一个工具。它的操作入口有好几百种,对于初级的业务分析员来说工具的操作还需要一定时间的学习。

解决交互问题,小明问答系统怎么样?

解决交互的问题,孟嘉说到同知识图谱数据库一起发布的人工智能交互产品“小明”。“明略数据拥有有一套知识表达的交互工具,是一个针对知识图谱的可视化的分析工具,在这套工具的基础上我们做了一些尝试,小明就是其中之一。小明可以被认为是人工智能对话的入口,所以我们就将这套知识问答系统嫁接在了知识图谱的分析工具上。”孟嘉总结到。

说到问答系统大家都不陌生, 算是用于行业非结构化文本和结构化数据的知识提取、表示、存储、检索的这样一个工具,以简洁的问答对话来解决和用户有关的行业认知决策的人工智能平台。


图片描述

因为明略数据深耕行业性质的知识图谱,所以问答系统的研发会对垂直行业的数据收集以及信息优化带来助力作用。

小明有哪些特殊的技术?小明的语义理解模型可以精准的将自然语言转化为框架语义。同时接口的开放性支持不同领域知识的快速接入。

提供多种对话模型的同时,支持多个二次开发,能够快速定位和理解自然语言中的实体等。

小明可以做什么?举两个例子。公安领域,如果告诉小明一个新发案件的案情描述,它会根据这些信息点解析其中的问题线索等,根据积累的各种侦破思路规则及各项参数,涉及历史案件、警情、重点前科人员等在公安知识库中进行匹配计算,进而给出嫌疑人方向以及可能的案件线索。

金融领域,如果小明接受的是部分业务人员关心的热点事件,它就可以根据不断积累的业务分析经验、人际关系图谱等给出一些决策依据,方便相关人员作出决策选择。

未来,明略数据+知识图谱,继续在深耕的路上

无论是大数据、知识图谱,本质上都是不可分割的。是什么能够让明略数据在知识图谱领域“崭露头角”?其实大数据就是知识图谱所用的底层技术,明略数据最早做大数据平台起家,所以积累了很多相关技术,无论是知识图谱还是蜂巢系统的存储,底层都与此相关。

大数据作为一种技术积累去服务知识图谱这套技术概念是有效的,而且一直相信,数据只有量化到一定程度,维度到一定级别,知识图谱才会真正起作用。

孟嘉做了一个很生动形象的比喻,就像大脑学习新知识一样,只有知识足够丰富,知识与知识之间、实体与实体之间的联系才会越来越丰富有效,所以大数据技术实际上是底层不可或缺的技术方案。明略在此积累丰富,自然可以投身知识图谱的研究而不吃力,此外孟嘉也表示很看好国内知识图谱未来的发展。

未来,明略数据也正在努力利用自己的全栈大数据技术以及20余个知识图谱落地项目的积累,不断挖掘数据价值,提升企业级知识图谱应用水平。

评论