-
机械臂三维模型在vtk与python中的可视化实现及其面临的数据相关挑战详解
资源介绍
第六章 知识图谱存在的挑战
一、数据相关的挑战
数据是知识图谱的基石,知识图谱的数据来源主要有两种:自有数据
(自身采集 或拥有等)和外源数据。自有数据由建设者因特定的业务需
求而采集获取或经过特定加工处理形成且被自己所拥有的数据;外源数据
是通过互联网爬取、开放共享或和数据交易所获得的数据。实际应用中,
数据来源多样性造成数据标准不统一、数据质量差,导致多源数据歧义、
噪声大、数据间关联关系不明确等问题。数据歧义和关系不明确对知识图
谱构建和推理形成了巨大的阻碍,对知识图谱应用成效的提升和技术的进
步提出了巨大的挑战。
1、多源数据的歧义、噪声大
多源数据依托于不同的业务目需求和工具产生,行业跨度大且缺乏
统一的业务数据模型标准和描述规范,异构、歧义、噪声大特征显著,尤
其是通过互联网获取的网络知识。对于知识图谱而言,数据歧义体现为实
体、概念的属性描述缺乏精确性、一致性或者实体间关系错置、扭曲,导
致图谱结构混乱及语义描述相互冲突、推理机制紊乱、推理结果扭曲失
真,最终对图谱应用成效产生巨大副作用。噪声大是互联网数据一大显著
特征,海量的噪声数据稀释了数据信息内容和价值密度。数据充斥大量的
噪声,将会在图谱中产生大量孤立、无用的实体和属性关系,这些实体和
关系还会占据大量的存储空间和关系路径,使图谱实体层变得冗余、繁
杂,不仅不能加快图谱推理速率、提升推理精度,反而导致存储资源的浪
费和图谱推理应用的低效。
2、数据关联性不明确
关联是知识图谱的核心和本质所在,知识图谱依赖于关系连接的方式