从文本序列中抽取实体的方法及装置制造方法及图纸

技术编号:31499120 阅读:29 留言:0更新日期:2021-12-18 12:46
本申请提供一种从文本序列中抽取实体的方法及装置,所述方法包括:获取文本序列;基于文本序列,计算文本序列中的每个字符的第一实体位置概率;基于第一实体位置概率,确定概率均值;将每个第一实体位置概率与概率均值进行比较,确定候选字符,并将候选字符的位置标识添加到第一实体位置列表;基于第一实体位置列表,确定出现在预定参考位置处的字符,以从文本序列中抽取第一实体。根据本申请的从文本序列中抽取实体的方法及装置解决了实体识别准确性不高而导致提取语义信息存在较大偏差的问题,能够基于文本序列中每个字符的实体位置概率,统计整个文本序列的字符的实体位置概率均值,从而更准确地确定实体位置,以提高实体抽取的准确性。抽取的准确性。抽取的准确性。

【技术实现步骤摘要】
从文本序列中抽取实体的方法及装置


[0001]本申请涉及自然语言处理领域,更具体地讲,涉及一种从文本序列中抽取实体的方法及装置。

技术介绍

[0002]随着互联网技术的飞速发展,对于自然语言的文本数据的处理需求数量激增,从文本数据中获取有价值的语义信息一直是研究的重点工作之一。
[0003]在文本数据的语义信息处理中,通常需要从文本数据中抽取出其所蕴含的实体和实体之间的关系信息,这里,在自然语言处理中,实体是指代某类具体事物的集合。在抽取过程中,通常需要确定文本数据中若干个实体的位置以及实体之间的关系,从而获取到语义信息。因此,实体抽取的准确性会影响到语义信息的处理结果的准确性。
[0004]在目前的语义信息处理方式中,可采用流水线方法,其首先对文本数据进行实体的识别,然后判断各个实体之间的关系类别。然而,在该方法中,实体识别相对独立,忽略了识别过程中的各个子任务之间的关联性,并且存在误差累计的情况,导致实体识别的准确性不高,使得提取的信息可能存在较大的偏差。

技术实现思路

[0005]鉴于现有的实体识别方法存在实体识别的准确性不高而导致提取的语义信息存在较大偏差的问题,本申请提供一种从文本序列中抽取实体的方法及装置。
[0006]根据本申请的第一方面,提供一种从文本序列中抽取实体的方法,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体。
[0007]可选地,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。
[0008]可选地,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首
位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识。
[0009]基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:针对所述首位置列表中的每个位置标识,按照所述文本序列的首尾方向,确定在所述尾位置列表中,与所述首位置列表中的每个位置标识相邻的第一位置标识,并将所述首位置列表中的每个位置标识与对应的第一位置标识组合成第一位置对,以获得第一位置对集合,其中,所述第一位置对集合包括针对所述首位置列表中的每个位置标识的第一位置对;针对所述尾位置列表中的每个位置标识,按照所述文本序列的与所述字符首尾方向相反的方向,确定在所述首位置列表中,与所述尾位置列表中的每个位置标识相邻的第二位置标识,并将所述尾位置列表中的每个位置标识与对应的第二位置标识组合成第二位置对,以获得第二位置对集合,其中,所述第二位置对集合包括针对所述尾位置列表中的每个位置标识的第二位置对;确定所述第一位置对集合和所述第二位置对集合的并集,从所述文本序列中抽取与所述并集中的每个位置对对应的字符对以及在所述对应的字符对之间的字符,以确定所述第一实体。
[0010]可选地,所述预定参考位置包括首位置和尾位置,所述第一实体位置概率包括第一实体首位置概率和第一实体尾位置概率,所述概率均值包括首位置概率均值和尾位置概率均值,其中,基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值的步骤包括:基于所述文本序列中所有字符的第一实体首位置概率,确定首位置概率均值;基于所述文本序列中所有字符的第一实体尾位置概率,确定尾位置概率均值。
[0011]可选地,将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表的步骤包括:将每个字符的第一实体首位置概率与所述首位置概率均值进行比较,根据比较结果,确定出现在所述首位置的首位置候选字符,并将所述首位置候选字符的位置标识添加到首位置列表;将每个字符的第一实体尾位置概率与所述尾位置概率均值进行比较,根据比较结果,确定出现在所述尾位置的尾位置候选字符,并将所述尾位置候选字符的位置标识添加到尾位置列表。
[0012]可选地,所述方法还包括:根据预定的第一实体与第二实体之间的实体关系类别,针对所抽取的每个第一实体,在每个实体关系类别下,计算所述文本序列中每个字符的第二实体位置概率,其中,所述第二实体位置概率指的是字符出现在与所抽取的第一实体满足实体关系类别的第二实体中的概率,每个实体关系类别表示第一实体与第二实体之间的一种实体关系;针对所抽取的每个第一实体,将所述文本序列中每个字符的第二实体位置概率与概率阈值进行比较,当在所有实体关系类别下所述文本序列中每个字符的第二实体位置概率均小于概率阈值时,或者当在所有实体关系类别下均不存在位于第二实体中的预定参考位置中的至少一个预定参考位置处的字符时,更新所抽取的第一实体的信息。
[0013]可选地,所述方法还包括:针对所抽取的每个第一实体,当在实体关系类别下所述文本序列中一个或多个字符的第二实体位置概率大于或等于概率阈值且所述一个或多个字符中存在位于第二实体中的预定参考位置中的每个预定参考位置的字符时,根据所述一
个或多个字符确定第二实体,将所述实体关系类别所表示的实体关系确定为第一实体与第二实体的实体关系。
[0014]根据本申请的第二方面,提供一种从文本序列中抽取实体的装置,所述装置包括:获取单元,获取文本序列;概率确定单元,基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;均值确定单元,基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;列表确定单元,将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从文本序列中抽取实体的方法,其特征在于,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体。2.根据权利要求1所述的方法,其特征在于,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。3.根据权利要求1所述的方法,其特征在于,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识,其中,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:针对所述首位置列表中的每个位置标识,按照所述文本序列的首尾方向,确定在所述尾位置列表中,与所述首位置列表中的每个位置标识相邻的第一位置标识,并将所述首位置列表中的每个位置标识与对应的第一位置标识组合成第一位置对,以获得第一位置对集合,其中,所述第一位置对集合包括针对所述首位置列表中的每个位置标识的第一位置对;针对所述尾位置列表中的每个位置标识,按照所述文本序列的与所述字符首尾方向相反的方向,确定在所述首位置列表中,与所述尾位置列表中的每个位置标识相邻的第二位置标识,并将所述尾位置列表中的每个位置标识与对应的第二位置标识组合成第二位置对,以获得第二位置对集合,其中,所述第二位置对集合包括针对所述尾位置列表中的每个位置标识的第二位置对;确定所述第一位置对集合和所述第二位置对集合的并集,从所述文本序列中抽取与所述并集中的每个位置对对应的字符对以及在所述对应的字符对之间的字符,以确定所述第一实体。4.根据权利要求1所述的方法,其特征在于,所述预定参考位置包括首位置和尾位置,
所述第一实体位置概率包括第一实体首位置概率和第一实体尾位置概率,所述概率均值包括首位置概率均值和尾位置概率均值,其中,基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值的步骤包括:基于所述文本序列中所有字符的第...

【专利技术属性】
技术研发人员:郑俊康经小川王潇茵张家华丁醒醒
申请(专利权)人:航天宏康智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1