数据识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27282874 阅读:14 留言:0更新日期:2021-02-06 11:50
本申请提供了一种数据识别方法、装置、电子设备及存储介质,涉及知识图谱领域,具体可以应用于智能办公领域。具体实现方案为:获取包含第一类实体及第二类实体的多源数据;从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。采用本申请,可以从海量的数据中识别到有价值的目标实体数据,从而提高智能化办公场景下的办公效率。下的办公效率。下的办公效率。

【技术实现步骤摘要】
数据识别方法、装置、电子设备及存储介质


[0001]本申请涉及知识图谱领域,尤其涉及智能办公领域。

技术介绍

[0002]大数据处理的便利性体现在方方面面,以智能办公的应用场景为例,办公环境日趋复杂,存在海量的数据待分析,比如,多个项目组的协同工作、每个项目组中的各职能部门及人员的分布、每个项目组所对接的兄弟智能部门及该项目组在办公环境的数据拓扑结构中所处的节点位置、该项目组的职能及人员更新等等这些数据海量存在,导致如何从海量的数据中获取到有价值的数据是重中之重,这对办公是否高效提供了数据基础,也就是说,如何通过大数据处理识别出有价值的数据,以提高办公效率(示例性的,如何提高办公环境中“以事找人”或“以人找事”的搜索处理效率)是要解决的技术问题。

技术实现思路

[0003]本申请提供了一种数据识别处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种数据识别处理方法,包括:
[0005]获取包含第一类实体及第二类实体的多源数据;
[0006]从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;
[0007]响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0008]根据本申请的另一方面,提供了一种数据识别处理装置,包括:
[0009]数据获取模块,用于获取包含第一类实体及第二类实体的多源数据;
[0010]数据提取模块,用于从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;
[0011]识别模块,用于响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0012]根据本申请的另一方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与该至少一个处理器通信连接的存储器;其中,
[0015]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。
[0016]根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。
[0017]采用本申请,可以获取包含第一类实体及第二类实体的多源数据;从所述多源数
据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据。可以响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。由于可以对第二类实体进行特征提取及编码处理,得到待识别的数据,及通过已训练好的识别模型对该待识别的数据进行识别,以从该第二类实体中筛选出有意义或需要被关注的目标实体数据(如所需的目标第二类实体),因此,可以从海量的数据中精准的识别到有价值的目标实体数据,从而提高了智能化办公场景下的办公效率。
[0018]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0020]图1是根据本申请实施例的数据识别处理方法的流程示意图;
[0021]图2是根据本申请实施例的知识图谱中第一类实体与第二类实体的示意图;
[0022]图3是根据本申请实施例的一应用示例中识别模型的架构示意图;
[0023]图4是根据本申请实施例的一应用示例中识别模型训练流程示意图;
[0024]图5是根据本申请实施例的一应用示例中基于识别模型实现数据识别处理方法的流程示意图;
[0025]图6是根据本申请实施例的数据识别处理装置的组成结构示意图;
[0026]图7是用来实现本申请实施例的数据识别处理方法的电子设备的框图。
具体实施方式
[0027]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
[0029]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0030]大数据处理存在便利性,但是随着海量的数据待分析的需求,在诸如办公场景中对有效数据的识别及筛选变得尤为重要,如果需要花费大量的精力及人力成本去对数据进行识别,以筛选得到准确、及时的有效信息,这个过程十分繁琐且低效。在办公场景中,虽然
可以通过构建知识库的方式来提高效率,但是,构建知识库的方式需要人工完成,而不同的人对同一知识实体的理解是有限的,即使进行构建了知识实体(如人实体、事实体)构成的知识库(比如人实体与事实体关联性构成的知识图谱),也会存在一定的误差,所以带来巨大的人力成本。如果采用模式匹配等方法来识别知识实体,随着知识实体数据规模的不断更新,数据量扩大后难以在该知识图谱生成全面的关联词典和规则,导致将该该知识图谱应用个多种应用场景的通用及兼容性降低,扩展能力弱。
[0031]采用本申请,对有效数据识别处理中,通过分析结构化数据中多种纬度的统计特征(包含数值型、文本型,类别型特征等),结合对第一类实体(人实体)相关的第二类实体(事实体)的人工标注方式所形成的数据标签,构建训练样本对识别模型进行训练,以得到训练好的识别模型,使用该训练好的识别模型可以从多源的结构化数据中识别出有意义的事实体,且可以对识别到的来自于多源数据的事实体进行概念消歧及同义替换。进而,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据识别处理方法,所述方法包括:获取包含第一类实体及第二类实体的多源数据;从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。2.根据权利要求1所述的方法,还包括:建立所述第二类实体与所述第一类实体的关联结果;响应第一搜索操作,解析出所述第一搜索操作中的第一关键词包含所述第一类实体;根据所述关联结果,得到与所述第一类实体对应的第二类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。3.根据权利要求1所述的方法,还包括:建立所述第二类实体与所述第一类实体的关联结果;响应第二搜索操作,解析出所述第二搜索操作中的第二关键词包含所述第二类实体;根据所述关联结果,得到与所述第二类实体对应的第一类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。4.根据权利要求1所述的方法,还包括:根据所述关联结果对关系图谱中的数据进行数据更新。5.根据权利要求1-4中任一项所述的方法,还包括采用如下一种或多种方式对所述第二类实体进行概念消岐处理,得到针对同一个所述第二类实体的统一概念描述;方式一:根据配置数据库中已存储的多个不同用词描述,且所述多个不同用词描述对应于同一个所述第二类实体的关联性,对所述第二类实体进行概念消岐处理;方式二:根据已训练好的相似度模型对多个所述第二类实体进行相似度比对,根据比对结果对所述第二类实体进行概念消岐处理。6.根据权利要求1-4中任一项所述的方法,其中,所述对所述第二类实体进行特征提取及编码处理,包括:对所述第二类实体根据不同数据类型进行特征提取,分别得到数值型特征及非数值型特征,针对所述非数值型特征进行离散化的编码处理;其中,所述非数值型特征包括:文本型特征、组合型特征、时间格式的特征中的至少一种。7.根据权利要求1-4中任一项所述的方法,还包括:构建训练样本数据,所述训练样本数据包括:包含第一类实体及第二类实体的多源数据,及对所述第一类实体及所述第二类实体进行预先分类识别所得到的分类数据标签;构建识别模型,所述识别模型至少包括:用于特征向量化处理的转换层、用于特征拼接的连接层、用于特征交叉组合的残差层、用于分类预测的分类识别层;将所述训练样本数据输入所述识别模型进行训练,得到所述已训练好的识别模型。8.一种数据识别处理装置,所述装置包括:数据获取模块,用于获取包含第一类实体及第二类实体的多源数据;数据提取模块,用于从所述多源数据中提取出所述第二类实体,对所述第二类实体进
行特征提取及编码处理,将处理结果作为待识别的数据;识别模块,用于响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所...

【专利技术属性】
技术研发人员:万凡王海威王杰骆金昌陈坤斌刘准和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1