【技术实现步骤摘要】
从文本序列中抽取实体的方法及装置
[0001]本申请涉及自然语言处理领域,更具体地讲,涉及一种从文本序列中抽取实体的方法及装置。
技术介绍
[0002]随着互联网技术的飞速发展,对于自然语言的文本数据的处理需求数量激增,从文本数据中获取有价值的语义信息一直是研究的重点工作之一。
[0003]在文本数据的语义信息处理中,通常需要从文本数据中抽取出其所蕴含的实体和实体之间的关系信息,这里,在自然语言处理中,实体是指代某类具体事物的集合。在抽取过程中,通常需要确定文本数据中若干个实体的位置以及实体之间的关系,从而获取到语义信息。因此,实体抽取的准确性会影响到语义信息的处理结果的准确性。
[0004]在目前的语义信息处理方式中,可采用流水线方法,其首先对文本数据进行实体的识别,然后判断各个实体之间的关系类别。然而,在该方法中,实体识别相对独立,忽略了识别过程中的各个子任务之间的关联性,并且存在误差累计的情况,导致实体识别的准确性不高,使得提取的信息可能存在较大的偏差。
技术实现思路
[0005]鉴于现有的实体识别方法存在实体识别的准确性不高而导致提取的语义信息存在较大偏差的问题,本申请提供一种从文本序列中抽取实体的方法及装置。
[0006]根据本申请的第一方面,提供一种从文本序列中抽取实体的方法,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率 ...
【技术保护点】
【技术特征摘要】
1.一种从文本序列中抽取实体的方法,其特征在于,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体。2.根据权利要求1所述的方法,其特征在于,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。3.根据权利要求1所述的方法,其特征在于,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识,其中,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:针对所述首位置列表中的每个位置标识,按照所述文本序列的首尾方向,确定在所述尾位置列表中,与所述首位置列表中的每个位置标识相邻的第一位置标识,并将所述首位置列表中的每个位置标识与对应的第一位置标识组合成第一位置对,以获得第一位置对集合,其中,所述第一位置对集合包括针对所述首位置列表中的每个位置标识的第一位置对;针对所述尾位置列表中的每个位置标识,按照所述文本序列的与所述字符首尾方向相反的方向,确定在所述首位置列表中,与所述尾位置列表中的每个位置标识相邻的第二位置标识,并将所述尾位置列表中的每个位置标识与对应的第二位置标识组合成第二位置对,以获得第二位置对集合,其中,所述第二位置对集合包括针对所述尾位置列表中的每个位置标识的第二位置对;确定所述第一位置对集合和所述第二位置对集合的并集,从所述文本序列中抽取与所述并集中的每个位置对对应的字符对以及在所述对应的字符对之间的字符,以确定所述第一实体。4.根据权利要求1所述的方法,其特征在于,所述预定参考位置包括首位置和尾位置,
所述第一实体位置概率包括第一实体首位置概率和第一实体尾位置概率,所述概率均值包括首位置概率均值和尾位置概率均值,其中,基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值的步骤包括:基于所述文本序列中所有字符的第...
【专利技术属性】
技术研发人员:郑俊康,经小川,王潇茵,张家华,丁醒醒,
申请(专利权)人:航天宏康智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。