【技术实现步骤摘要】
一种识别实体的数据处理系统
[0001]本专利技术涉及实体识别
,尤其涉及一种识别实体的数据处理系统。
技术介绍
[0002]在文本中需要对专有实体进行识别,例如、人名、地名、玩具名等专有名称;现有技术中,对专有实体识别方法主要分为基于规则词典的方法和基于统计模型的方法,基于规则词典的方法主要通过构建线下大规模的实体词典以字符串匹配的方式来进行识别,基于统计模型的方法主要是通过构建统计模型,利用人工标注的训练语料来训练模型从而进行识别。
[0003]但是,无论是基于规则词典的方式还是基于规则词典的方式都无法准确的识别出专有实体且也无法确定已识别的实体是否为已知的专有名词,进而导致无法准确的获取专有实体信息。
技术实现思路
[0004]针对上述技术问题,本专利技术采用的技术方案为一种识别实体的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括样本实体集B={B1,
……
,B
i
,
……
,B
m
},B
i
是指第i个样本实体的特征列表,i=1
……
m,m为样本实体数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、获取目标实体的特征列表A={A1,
……
,A
j
,
……
,A
n
},A
j
是指目标实体的第j特征的特征字符串,j=1
…… >n,n为特征类型数量;S200、从数据库中获取任一B
i
={B
i1
,
……
,B
ij
,
……
,B
in
},B
ij
是指第i个样本实体对应的第j个特征的特征字符串;S300、根据A,获取到目标实体的第一目标特征列表C={C1,
……
,C
r
,
……
,C
s
},C
r
是指目标实体对应的第r个第一目标特征的特征字符串,r=1
……
s,s为目标实体的第一目标特征数量;S400、根据B
i
,获取到样本实体的第二目标特征列表D
i
={D
i1
,
……
,D
ir
,
……
,D
is
},D
r
是指样本实体对应的第r个第二目标特征的特征字符串;S500、根据C和D
i
,获取目标实体与第i个样本实体之间的相似度F
i
,以构建目标实体的相似度列表F={F1,
……
,F
i
,
……
,F
m
},其中,F
i
符合如下条件:,F
ir
是指C
r
与D
ir
之间的相似度,W
r
是指F
ir
对应的权重值;S600、遍历F且根据F
i
,获取目标实体的目标相似度;S700、根据目标相似度,获取到目标相似度对应的样本实体且将目标实体确定为目标相似度对应的样本实体。
[0005]本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种识别实体的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的
广泛利用价值,其至少具有下列优点:本专利技术的一种识别实体的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括样本实体集,当所述计算机程序被处理器执行时,实现以下步骤:获取目标实体的特征列表和从数据库中获取任一样本实体的特征列表,从目标实体的特征列表确定出目标实体的第一目标特征列表且从样本实体的特征列表确定出样本实体的第二目标特征列表,基于第一目标特征列表与第二目标特征列表获取相似度,当相似度满足预设条件时,确定目标实体等于样本实体;能够准确的识别出实体,避免因无法准确的识别出实体导致无法获取实体的相关信息。
[0006]同时,对于特征的不同采用不同的相似度算法,有利于确定相似度的准确性,进而准确的确定目标实体是否为样本实体,避免因无法准确的识别出实体导致无法获取实体的相关信息。
[0007]此外,能够根据目标实体和样本实体之间相同特征数量,选择相似度阈值,使得更加准确的确定目标实体是否为样本实体。
[0008]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0009]图1为本专利技术实施例提供的一种识别实体的数据处理系统的执行步骤的流程图。
具体实施方式
[0010]为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
[0011]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
[0012]本实施例提供了一种识别实体的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括样本实体集B={B1,
……
,B
i
,
……
,B
m
},B
i
是指第i个样本实体的特征列表,i=1
……
m,m为样本实体数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、获取目标实体的特征列表A={A1,
……
,A
j
,
……
,A
n
},A
j
是指目标实体的第j特征的特征字符串,j=1
……
n,n为特征类型数量。
[0013]具体地,在S100步骤中还通过如下步骤获取A:S101、获取目标问题语句且从所述目标问题语句中提取出实体作为目标实体,本领域技术人员知晓采取现有技术中任一槽位填充方法获取目标实体,在此不再赘述。
[0014]具体地,所述目标问题语句是指本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种识别实体的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括样本实体集B={B1,
……
,B
i
,
……
,B
m
},B
i
是指第i个样本实体的特征列表,i=1
……
m,m为样本实体数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、获取目标实体的特征列表A={A1,
……
,A
j
,
……
,A
n
},A
j
是指目标实体的第j特征的特征字符串,j=1
……
n,n为特征类型数量;S200、从数据库中获取任一B
i
={B
i1
,
……
,B
ij
,
……
,B
in
},B
ij
是指第i个样本实体对应的第j个特征的特征字符串;S300、根据A,获取到目标实体的第一目标特征列表C={C1,
……
,C
r
,
……
,C
s
},C
r
是指目标实体对应的第r个第一目标特征的特征字符串,r=1
……
s,s为目标实体的第一目标特征数量;S400、根据B
i
,获取到样本实体的第二目标特征列表D
i
={D
i1
,
……
,D
ir
,
……
,D
is
},D
r
是指样本实体对应的第r个第二目标特征的特征字符串;S500、根据C和D
i
,获取目标实体与第i个样本实体之间的相似度F
i
,以构建目标实体的相似度列表F={F1,
……
,F
i
,
……
,F
m
},其中,F
i
符合如下条件:,F
ir
是指C
r
与D
ir
之间的相似度,W
r
是指F
ir
对应的权重值;S600、遍历F且根据F
i
,获取目标实体的目标相似度;S700、根据目标相似度,获取到目标相似度对应的样本实体且将目标实体确定为目标相似度对应的样本实体。2.根据权利要求1所述的识别实体的数据处理系统,其特征在于,在S100步骤中还通过如下步骤获取A:S101、获取目标问题语句且从所述目标问题语句中提取出实体作为目标实体;S103、将所述目标实体输入至预设细粒度模型中获取到A。3.根据权利要求2所述的识别实体的数据处理系统,其特征在于,每一B
i
均是通过所述预设细粒度模型进行获取。4.根据权利要求1所述的识别实体的数据处理系统,其特征在于,A的特征顺序与B
i
的特征顺序一致。5.根据权利要求1所述的识别实体的数据处理系统,其特征在于,在S300步骤中还通过如下步骤获取C:S301、当A
j
=null时,从A中删除A
j
,获取目标实体的第一中间特征列表A'={A'1,
……
,A'
x
,
…...
【专利技术属性】
技术研发人员:张正义,傅晓航,常鸿宇,刘羽,
申请(专利权)人:中科雨辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。