您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页知识驱动与数据驱动系统构建综述

知识驱动与数据驱动系统构建综述

来源:抵帆知识网
^ mmmm知识驱动与数据驱动系统构建综述

万超

(三峡大学,湖北宜昌443002)

2021年第04期

(总第220期)

摘要:人工智能的发展衍生出了两大主决问题的方法,一个是数据驱动方法,另一个是知识驱动的方法。这两种方

法各有优劣,从人工智能定义和发展出发,对这两种方法做出说明,分析这两种方法采用的技术,以及对比二者的优劣。 举例说明数据驱动方法与知识驱动方法结合应用研究现状,最后总结结合二者的优势的应用前景。关键词:知识驱动;数据驱动;系统构建中图分类号:TP11 文献标识码:A

文章编号:2096-9759(2021)04-0145-03

着不可解释性(黑箱特征),导致在一些情况下无法被采信,还

需要人为来进行判断,在一些生命财产安全领域这种情况下 难以被接受。

本文将整理阐述数据驱动与知识驱动的方法原理和主流 应用,以及知识驱动和数据驱动优缺点,说明将数据驱动与知 识驱动结合的优势及应用前景。1数据驱动方法 1.1机器学习

机器学习是利用算法指导计算机利用已知数据得出适当 数学模型,机器学习可以利用拟合的模型对新输入的数据进 行进一步判断的方法,机器学习的学习方式有三种,分别是监 督学习,半监督学习,无监督学习。

监督学习是一种利用已知类别的样本数据集和模型来对 未知的数据进行分类的方法,其思想通过输入与输出的样本 L =

人工智能的发展不断的推动着社会的变革,人工智能(Ar­

tificial Intelligence) 主要研宄用人工的方法和技术,模仿、延伸 扩展的智能,实现机器智能,最终目标是使机器智能达到人类 的水平。在人工智能发展的阶段,衍生出代表人工智能的两 大主义:符号主义和连接主义,分别代表着知识驱动与数据驱 动。符号人工智能的子领域专注于硬编码(即显式编写)特定 领域中每个可能场景的规则,这些规则是由人类编写的,规则 来自于对要完成的特定主题和任务的先验知识。在此基础上 发展的知识工程有着一系列应用,如专家系统、知识图谱等。 连接主义是建立在人脑研宄基础之上的,它从神经元开始进 而研宄神经网络模型和脑模型,开辟了人工智能的又一发展 道路,其代表就是一系列数据驱动的方法。机器学习和深度 学习方法代表着数据驱动。

知识驱动方法的特点是擅长解决定义清晰的逻辑问题, 解决问题的规则通常由人为定义,知识推理的过程与人的认 知过程相似,但是知识驱动方法往往缺乏数理基础,在高层次 模式识别任务(语音识别或图像分类)中难以使用,另一方面 计算机对知识还是难以处理,需要人为来对知识进行整理。数 据驱动方法在数据规模较大、任务复杂的情况下表现较好,在 语音识别、计算机视觉、自然语言处理等领域得到了大规模应 用。虽然数据驱动的方法在一些任务下能够达到与人相似的 水平或者更好,例如深度学习可以处理大多数问题,但是存在

,其中x^y分别代表样本和样本对应

的标签,通过调整算法中的参数,模型在监督学习使用训练数

据集中的模式将特征样本X映射到标签Y。监督机器学习的 基本步骤是:①获取数据集,并将其分为单独的训练、验证和 测试数据集;②使用训练和验证数据集提供特征和目标之间 关系的模型;③通过测试数据集评估模型。常见的监督学习 任务有分类和回归两种。常见的监督学习算法有支持向量机、

收稿日期:2021-03-18

作者简介:万超(1994-),男,江西南昌人,硕士研究生在读,研究方向:智能信息处理。

STC=DC+IDC=11019.04+2700=13719.04 元 [2] 郑自国.一种利用UML建模技术对功能点度量模型的改

根据某第三方机构报价体系,功能测试50个功能点报价 为10000元,估算的报价与实际报价偏差为27.11%。通过偏 差原因分析,主要问题在于测试环境成本估算、管理成本估算, 根据标准要求测试环境成本不超过软件测试人工成本的20%, 案例中取值为最高标准20%;案例中管理成本为2000元,是 软件测试直接成本的18.15%,估值偏高,因此造成估算结果有 一定偏差。5结语

IFPUG功能点分析方法是一种目前被广泛应用于软件规

进方法[D]. 2004.

[3] Bundschuh M , Dekkers C . IFPUG Function Point Coun­

ting Rules[M]. Springer Berlin Heidelberg, 2008.

[4] [5]

梁荣贞.浅析软件测试理念与策略[J].华东科技(综合), 张斌斌,李伟松,彭晓龙,等.浅谈GB/T 25000.51-2016《系

2020(1):0375-0375,

统与软件工程系统与软件质量要求和评价(SQuaRE)第51 部分:就绪可用软件产品(RUSP)的质量要求和测试细则》 的变化[J].中国医疗器械信息,2018, 024(013):1-2.[6]

乐亮,张宝林,高员.基于GB/T25000.10-2016的软件质 量度量框架实例的应用[J].现代计算机(专业版),2019,000 (035):-92,

[7] 石宇楠.基于多目标协同进化的测试用例优先排序[DL2015.[8]

朱安江.早期阶段软件规模估算方法研究与应用[D].国 防科学技术大学,2011.

模估算的方法,它基于明确的规则约束,可应用于软件项目的 不同阶段或应用场景中,尤其适用于MIS类项目[8]。参考文献:

[1]吴叶青.功能点在软件造价评估中的应用[J].舰船电子工

程,2018,38(08):26-31.145

Changjiang Information & Communicationskim、神经网络等算法。

半监督学习是介于监督学习和无监督学习之间的一种方 法,在许多任务中如图像分类、语音识别等任务,获得带标签 的数据往往是困难的、昂贵的或耗时的,因为它们需要有经验 的人类注释人员花费大量时间进行标记,所以出现了一种带 少量标记数据中加入大量无标记数据学习的半监督学习的方

法。半监督学习方法从理论上来说优于无监督学习的方法, 避免了数据和资源的浪费,同时解决了监督学习的模型泛化 能力不强和无监督学习的模型不精确等问题。

无监督学习和监督学习相反,无监督学习是利用没有标 记的数据集利用模型来学习其对应的标签。无监督学习的目 的是检测数据集中的模式,并对数据集中的单个实例进行分 类,由学习到的类标签信息把样例划分到不同的簇或找到高 维输入数据的低维结构。常见的无监督学习算法有k均值、 主成分分析、层次聚类等。1.2深度学习

深度学习是机器学习当中的一个子集,上个世纪诞生的 连接主义认为将大量的计算单元连接成网络可以实现智能, 随着对生物神经科学和计算机领域深入研宄,人们逐渐认识 到神经网络的分层计算模型与人类大脑的神经网络相似。随 着数据量的增加,深度学习在一些复杂的任务下能达到与人 相当的水平。深度学习是目前最接近人脑神经分层的学习方 法,能够突破浅层计算的,能够自动从数据中组合底层特 征形成高级特征表示。深度学习技术发展受到当时硬件水平 的,直到GPU运算能力逐渐提高,深度学习才得以发展。 例如击败李世石Alpha go即是深度学习的一个很好的示例。 也出现了例如 TensorFlow、Pytorch、caffee、paddle 等深度学习 框架,支持CNN、ResNet、RNN和LSTM等网络,这些在计算 机视觉和自然语言处理等方面应用较广。1.3数据驱动方法主流技术及优缺点

智能计算、数据挖掘、机器学习、深度学习等技术为许多 面向应用的研宄领域提供了丰富的数据处理方法和算法资源。 例如计算机视觉己经取得了长足的进步,特别是深度学习方 法的应用,在图像目标检测、人脸识别、自动驾驶等方面有很 大的突破。尽管有了这些快速的发展,计算机视觉和人类视 觉之间仍然存在着很大的差距。造成这一差距的一个因素是 现有视觉学习方法的数据驱动和纯自下而上的性质,无法直 接识别图像中的高层语义,造成语义鸿沟,在遥感影像分析领 域,由于涉及的领域知识较多,单靠数据驱动无法有效的解释 结果。因此计算机视觉系统的最终目标是具有一般图像解释 和语义描述的能力。在医学领域,数据驱动方法可以辅助预 测病症,但是要求的数据质量往往较高,否则可能发生误判等 情况,一些数据驱动的方法例如深度学习存在着“黑箱性质”, 过程无法被解释,解释性差的输出阻止了许多深层模型在实 际医学应用中被广泛接受。在数据分析中,数据驱动的方法 可以帮助企业进行分析决策,现如今面临数据的大规模增长, 传统分析手段无法应对,而且只能发掘表层信息,而不能获得 数据属性的内在关系和隐含的信息(重要的知识)》2知识驱动方法

知识是人类通过实践(包括学习、模仿、试验、生理等实践 活动)认识到客观世界的规律,是信息经过加工、整理、解释、 挑选和改造而形成的。知识是用于解决问题的信息。智能活

万超:知识驱动与数据驱动系统构建综述

动主要是获得知识并运用知识的过程。因此知识是构成人工

智能的要素之一。知识工程的起源于1977年美国斯坦福大 学计算机科学家费根鲍姆教授(B. A.Feigenbaum)在第五届国 际人工智能会议一提出知识工程(Knowledge Engineering, KE)的概念,知识工程是人工智能的原理和方法,对那些需要

专家知识才能解决的应用难题提供求解的手段。恰当运用专 家知识的获取、表达和推理过程的构成与解释,是设计基于知 识的系统的重要技术问题[1],知识工程代表的知识驱动方法主 要的过程包括知识发现、知识的表示、知识的推理等过程。从 专家系统到如今的知识图谱,尤其是知识图谱的出现使得早 前黯然失色的知识工程走向复兴。2.1知识发现

知识系统需要解决知识的获取问题,传统的知识获取流 程需要人工来参与,即知识工程师从知识来源获取所需的知 识,通过相应的知识编辑器,来将知识加入到知识库中。面对 数据量的增长,传统手段的效率低下成为了一个问题,而且从 海量的信息中发现知识也是一个问题。为了解决这一效率低 下的问题,需要一种自动化的方法能够发现信息之间内在的 知识,知识发现技术应运而生。知识发现是从海量数据库中 发掘数据中的内在关联和隐含的信息,能够帮助人理解数据 之间的内在关系,帮助作出决策。

2.2知识表示

知识系统可以解决不同的问题,而如何表示这些知识是 人工智能和认知科学的研究热点之一。知识表示是认知科学 和人工智能两个领域共存的问题。在认知科学里,它研宄的 是人类如何储存和处理资料。在人工智能里,其主要目标表 现为如何储存知识,让计算机能够处理知识。知识的表示方 法目前己经有几种,其中有谓词逻辑表示法、产生式表示法、 框架表示法、语义网络表示法、本体表示法等。2.3知识推理

知识推理就是通过知识库建立起的已有关系基础之上, 推断和扩展知识的网络。知识推理可以从已知的知识推理出 己有知识,另一种是从已有的知识关系中归纳总结出新的事 实以及关系。知识推理是知识驱动方法中一个重要的环节, 其方法主要有基于传统逻辑的推理方法以及基于图的推理两 种方法气 2.4专家系统

专家系统是利用大量的专门知识,通过知识推理来解决 特定领域中实际问题的计算机程序系统。专家系统通常由人 机交互界面、知识库、推理机、解释器、综合数据库、知识获取 等6个部分构成,模拟专家的解决问题的决策过程。专家系 统只能应对轻量级应用,无法面对目前大规模数据以及实时 智能需求。2.5知识图谱

2012年,谷歌发布了知识图谱项目,以知识图谱为基础构 建下一代搜索引擎。知识图谱的出现使得语义网络技术前进 了一大步。知识图谱在实质上就是结构化的语义知识库,用 于以符号形式描述物理世界中的概念及其相互关系.其基本 组成单位是“实体一关系一实体”三元组,以及实体及其相关 属性一值对,实体间通过关系相互联结,构成网状的知识结构[2]。知识图谱的作用主要是在于辅助作用,如搜索、决策等。知 识图谱面临的是如何解决知识的自动获取、多源知识的融合、

146

Changjiang Information & Communications

知识存储和知识推理等问题。解决这些关键问题是发展知识 图谱的关键所在。

表1知识驱动与数据驱动的优缺点

优点

缺点

可解释好.类似人的认

推理无法应对S汆檳式

知识驱动

知过桴自上而下仔务

在痛层次模式识別任 自F而匕可解释性差, 数据驱动

务下农现好

对数据的要求较高

3数据驱动与知识驱动结合解决问题的应用

知识驱动与数据驱动各有相应的应用场景,知识驱动方 法的优势是大部分研宄探索如何将二者的优势互补,使数据 驱动方法或者知识驱动方法的缺陷影响达到最小,一般来说 都是将二者的优点相结合互补。己经有许多实现了将二者应 用在一起的研宄。一种方法是将数据驱动的模型与知识驱动 模型结合,数据驱动模型能适应输入动态数据,以此来不断的 提升知识驱动模型的适应性。例如在活动识别领域,知识驱 动模型存在的问题是模型是静态的,无法适应每一个个体。因

此Gorka等人[3]提出了一种利用数据驱动技术,利用用户行为 数据演化知识驱动活动模型的方法,该方法包括一个新的聚 类过程,利用知识工程开发的初始不完全模型来检测代表活 动的行为簇并聚合新的行为。Abdul等人[4]提出了一种将知识 驱动与数据驱动相结合的混合方法。其目的是建立一个学习 的活动模型,该模型能够根据动作生成的数据自动适应和演 化,弥补了基于知识的活动模型中信息不足的问题。

图1数据驱动方法演化知识驱动模型

知识还可以使得机器学习加快收敛ra,研宄了一般的机器 学习模型,其中知识转移是提高其收敛性的主要方法。研宄 表明这种机制适用大部分机器学习框架。

将知识图谱中的实体关系抽取出来转化成低维向量嵌入 向量空间,用深度学习方法对其进行训练。文献[6]提出了一 个可解释的、知识导向的深度模型来解决这些挑战。从临床 知识图谱中显式和隐式地提取知识,不仅可以补充不充分的 病历,而且可以指导模型的预测过程。采用了技巧连接和注 意机制来提高模型的可解释性。在心力衰竭预测任务的背景 下,模型优于几种最先进的方法。文献[7]利用知识图谱技术, 将各种医学信息系统中的琐碎和分散的知识联系起来,辅助 疾病诊断。以甲状腺疾病为例,提取生物医学实体之间的关 系,构建生物医学知识图。通过知识图谱嵌入方法将知识图 中的实体和关系转化为低维连续向量。利用已知的病理疾病 关系数据训练双向长短期记忆网络(BSTLM)的疾病诊断模 型。将甲状腺的特征词向量和相关的知识实体向量输入到训 练的模型中,得到决策结果。实验表明,知识图谱与深度学习 相结合的甲状腺疾病诊断方法具有较好的诊断效果。这些方147

万超:知识驱动与数据驱动系统构建综述

法解决了知识图谱中数据稀疏,效率低等问题,利用数据驱动 实现输出的高效。

图2知识图谱与深度学习融合方法

在计算机视觉领域中,影像的语义信息十分重要,因此如 何使得计算机的解释能和人的解释一致是个十分重要的研宄

课题。Nanfei1\"等人在模型中加入了基于本体的领域知识,可 以模拟人类在视觉领域的学习能力之一,通过使用少量照片 识别特定对象的实体几何结构和纹理来合成凸面物体图像的 能力M。在遥感影像分类利用知识工程创建出了本体语义网络, 采用机器学习中的决策树进行分类,有效的识别出了滑坡,以 及其他的地物类型。4总结

数据驱动方法和知识驱动方法虽然各有优缺点,但是知 识驱动和数据驱动融合技是一个新的研宄方向,为许多无法 采用数据驱动技术或者知识驱动技术学科领域提供了解决问 题的新方案。是突破当前人工智能无法真正模拟人类的关键 所在。人工智能的未来应该是知识驱动和数据驱动相结合的 人工智能,只有不断的探索如何将数据驱动与知识驱动优势 结合,才能更好的服务未来社会。希望引起更多人重视和投 入这项研宄工作。参考文献:

[1] 袁国铭,李洪奇,樊波.关于知识工程的发展综述[J].计算技

术与自动化,2011. 30(01):第138-143页.[2]

刘桥,等.知识图谱构建技术综述[J].计算机研究与发展,2016. 53(03): 582-600.

[3] Gorka, A., et al., Extending knowledge-driven activity mod­

els through data-driven learning techniques. Expert Systems

With Applications, 2015. 42(6).

[4] Abdul, S.A. S., et al., A hybrid approach of knowledge-

driven and data-driven reasoning for activity recognition in smart homes. Journal of Intelligent & Fuzzy Systems, 2019.

36(5).

[5] Vapnik V , Izmailov R . Knowledge transfer in SVM and

neural networks[J], Annals of Mathematics & Artificial In­telligence, 2017, 81(l-2):3-19.

[6] Zhang, X., et al. KnowRisk: An Interpretable Knowledge-

Guided Model for Disease Risk Prediction, in 2019 IEEE In­ternational Conference on Data Mining (ICDM). 2019.

[7] Chai, X., Diagnosis method of thyroid disease combining

knowledge graph and deep learning. IEEE Access, 2020. PP

(99): p. 1-1.

[8] Nanfei, S., D.L. Jian and Y.W. Michael, An cmtology-based hy­

brid methodology for image synthesis and identification with convex objects. The Imaging Science Journal, 2018.66(8).

[9] 魏家旺,等.地理本体驱动的面向对象滑坡识别[J].遥感信

息,2020. 035(002): 94-99.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务