基于语言模型的命名实体识别方法及装置制造方法及图纸

技术编号：41980384 阅读：6 留言：0更新日期：2024-07-12 12:11

本申请提供了一种基于语言模型的命名实体识别方法及装置。该方法包括：获取待进行命名实体识别的文本，根据文本中的断句符号划分文本，得到第一语句集合；利用第一语言模型对第一语句集合中各条语句进行命名实体识别，得到预识别结果；根据预识别结果对第一语句集合进行筛选，得到第二语句集合；从第一语句集合中确定出第二语句集合中各条语句的局部句子集合和全局句子集合；基于第二语句集合中各条语句的局部句子集合和全局句子集合，利用第二语言模型对第二语句集合中各条语句进行命名实体识别，得到再识别结果。采用上述技术手段，解决现有技术中长文本命名实体识别效果差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及命名实体识别，尤其涉及一种基于语言模型的命名实体识别方法及装置。

技术介绍

1、随着数字化和智能化技术在各个领域的深入发展，更多的智能化设备在生活中发挥作用。各种智能的语音设备，如智能音箱、智能手机、智能机器人等设备都已经支持语音的对话。对话的场景各种各样，酒店、超市、医院、写字楼等都会涉及到，在不同场景下都会有可能对应的命名实体（人名、地名、机构名等），实体的发现与识别是很重要的一环。及时发现潜在的命名实体，尤为重要。因为一般而言，命名实体会是对话中比较关注的内容，如果对此不能做到有效的理解，会严重阻碍对话的进展，给用户带来不好的体验。当前常用的命名实体识别方法，识别效果不佳，特别是对于长文本而言，在这种较长的上下文的关系下保证识别结果的一致性，更是识别的难点。

技术实现思路

1、有鉴于此，本申请实施例提供了一种基于语言模型的命名实体识别方法、装置、电子设备及计算机可读存储介质，以解决现有技术中长文本命名实体识别效果差的问题。

2、本申请实施例第一方面，提供了一种基于语言模型的命名实体识别方法，包括：获取待进行命名实体识别的文本，根据文本中的断句符号划分文本，得到第一语句集合，其中，第一语句集合包含多条语句；利用第一语言模型对第一语句集合中各条语句进行命名实体识别，得到预识别结果；根据预识别结果对第一语句集合进行筛选，得到第二语句集合，其中，第二语句集合包含多条语句，第二语句集合中语句的数量少于等于第一语句集合中语句的数量；从第一语句集合中确定出第二语句集合

3、本申请实施例第二方面，提供了一种基于语言模型的命名实体识别装置，包括：划分模块，被配置为获取待进行命名实体识别的文本，根据文本中的断句符号划分文本，得到第一语句集合，其中，第一语句集合包含多条语句；预识别模块，被配置为利用第一语言模型对第一语句集合中各条语句进行命名实体识别，得到预识别结果；筛选模块，被配置为根据预识别结果对第一语句集合进行筛选，得到第二语句集合，其中，第二语句集合包含多条语句，第二语句集合中语句的数量少于等于第一语句集合中语句的数量；确定模块，被配置为从第一语句集合中确定出第二语句集合中各条语句的局部句子集合和全局句子集合；再识别模块，被配置为基于第二语句集合中各条语句的局部句子集合和全局句子集合，利用第二语言模型对第二语句集合中各条语句进行命名实体识别，得到再识别结果，其中，第一语言模型的模型规模小于第二语言模型的模型规模。

4、本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

5、本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

6、本申请实施例与现有技术相比存在有益效果是：获取待进行命名实体识别的文本，根据文本中的断句符号划分文本，得到第一语句集合，其中，第一语句集合包含多条语句；利用第一语言模型对第一语句集合中各条语句进行命名实体识别，得到预识别结果；根据预识别结果对第一语句集合进行筛选，得到第二语句集合，其中，第二语句集合包含多条语句，第二语句集合中语句的数量少于等于第一语句集合中语句的数量；从第一语句集合中确定出第二语句集合中各条语句的局部句子集合和全局句子集合；基于第二语句集合中各条语句的局部句子集合和全局句子集合，利用第二语言模型对第二语句集合中各条语句进行命名实体识别，得到再识别结果，其中，第一语言模型的模型规模小于第二语言模型的模型规模。采用上述技术手段，可以解决现有技术中长文本命名实体识别效果差的问题，进而提高长文本命名实体识别效果。

本文档来自技高网...

【技术保护点】

1.一种基于语言模型的命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，根据所述预识别结果对所述第一语句集合进行筛选，得到第二语句集合，包括：

3.根据权利要求1所述方法，其特征在于，从所述第一语句集合中确定出所述第二语句集合中各条语句的局部句子集合，包括：

4.根据权利要求1所述方法，其特征在于，从所述第一语句集合中确定出所述第二语句集合中各条语句的全局句子集合，包括：

5.根据权利要求1所述方法，其特征在于，基于所述第二语句集合中各条语句的局部句子集合和全局句子集合，利用第二语言模型对所述第二语句集合中各条语句进行所述命名实体识别，得到再识别结果，包括：

6.根据权利要求1所述方法，其特征在于，基于所述第二语句集合中各条语句的局部句子集合和全局句子集合，利用第二语言模型对所述第二语句集合中各条语句进行所述命名实体识别，得到再识别结果之后，所述方法还包括：

7.根据权利要求6所述方法，其特征在于，基于该词为该命名实体的热度频次和该词的热度频次的比值确定将该词识别为该命名实体是否正确，包括：

8.一种基于语言模型的命名实体识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于语言模型的命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，根据所述预识别结果对所述第一语句集合进行筛选，得到第二语句集合，包括：

3.根据权利要求1所述方法，其特征在于，从所述第一语句集合中确定出所述第二语句集合中各条语句的局部句子集合，包括：

4.根据权利要求1所述方法，其特征在于，从所述第一语句集合中确定出所述第二语句集合中各条语句的全局句子集合，包括：

6.根据权利要求1所述方法，其特征在于，基于所述第二语句集合中各条...

【专利技术属性】
技术研发人员：张献涛，张猛，林小俊，
申请(专利权)人：北京赛彼思智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人