【技术实现步骤摘要】
数据识别方法、装置、电子设备及存储介质
[0001]本申请涉及知识图谱领域,尤其涉及智能办公领域。
技术介绍
[0002]大数据处理的便利性体现在方方面面,以智能办公的应用场景为例,办公环境日趋复杂,存在海量的数据待分析,比如,多个项目组的协同工作、每个项目组中的各职能部门及人员的分布、每个项目组所对接的兄弟智能部门及该项目组在办公环境的数据拓扑结构中所处的节点位置、该项目组的职能及人员更新等等这些数据海量存在,导致如何从海量的数据中获取到有价值的数据是重中之重,这对办公是否高效提供了数据基础,也就是说,如何通过大数据处理识别出有价值的数据,以提高办公效率(示例性的,如何提高办公环境中“以事找人”或“以人找事”的搜索处理效率)是要解决的技术问题。
技术实现思路
[0003]本申请提供了一种数据识别处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种数据识别处理方法,包括:
[0005]获取包含第一类实体及第二类实体的多源数据;
[0006]从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;
[0007]响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0008]根据本申请的另一方面,提供了一种数据识别处理装置,包括:
[0009]数据获取模块,用于获取包含第一类实体及 ...
【技术保护点】
【技术特征摘要】
1.一种数据识别处理方法,所述方法包括:获取包含第一类实体及第二类实体的多源数据;从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。2.根据权利要求1所述的方法,还包括:建立所述第二类实体与所述第一类实体的关联结果;响应第一搜索操作,解析出所述第一搜索操作中的第一关键词包含所述第一类实体;根据所述关联结果,得到与所述第一类实体对应的第二类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。3.根据权利要求1所述的方法,还包括:建立所述第二类实体与所述第一类实体的关联结果;响应第二搜索操作,解析出所述第二搜索操作中的第二关键词包含所述第二类实体;根据所述关联结果,得到与所述第二类实体对应的第一类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。4.根据权利要求1所述的方法,还包括:根据所述关联结果对关系图谱中的数据进行数据更新。5.根据权利要求1-4中任一项所述的方法,还包括采用如下一种或多种方式对所述第二类实体进行概念消岐处理,得到针对同一个所述第二类实体的统一概念描述;方式一:根据配置数据库中已存储的多个不同用词描述,且所述多个不同用词描述对应于同一个所述第二类实体的关联性,对所述第二类实体进行概念消岐处理;方式二:根据已训练好的相似度模型对多个所述第二类实体进行相似度比对,根据比对结果对所述第二类实体进行概念消岐处理。6.根据权利要求1-4中任一项所述的方法,其中,所述对所述第二类实体进行特征提取及编码处理,包括:对所述第二类实体根据不同数据类型进行特征提取,分别得到数值型特征及非数值型特征,针对所述非数值型特征进行离散化的编码处理;其中,所述非数值型特征包括:文本型特征、组合型特征、时间格式的特征中的至少一种。7.根据权利要求1-4中任一项所述的方法,还包括:构建训练样本数据,所述训练样本数据包括:包含第一类实体及第二类实体的多源数据,及对所述第一类实体及所述第二类实体进行预先分类识别所得到的分类数据标签;构建识别模型,所述识别模型至少包括:用于特征向量化处理的转换层、用于特征拼接的连接层、用于特征交叉组合的残差层、用于分类预测的分类识别层;将所述训练样本数据输入所述识别模型进行训练,得到所述已训练好的识别模型。8.一种数据识别处理装置,所述装置包括:数据获取模块,用于获取包含第一类实体及第二类实体的多源数据;数据提取模块,用于从所述多源数据中提取出所述第二类实体,对所述第二类实体进
行特征提取及编码处理,将处理结果作为待识别的数据;识别模块,用于响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所...
【专利技术属性】
技术研发人员:万凡,王海威,王杰,骆金昌,陈坤斌,刘准,和为,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。