System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息处理,尤其涉及一种自然语言断句方法、装置、智能设备和存储介质。
技术介绍
1、英语作为全球应用最为普及的一门语言,引起了越来越多人的重视,国内对于英语等外语的教育也愈加普及深化,相比较于母语学习,非母语的学习难免会增添难度。目前,为了帮助用户进行英语等非母语语言的学习,市场上推出了词典笔以及具备扫描释义功能的智能设备,用户利用词典笔或其他智能设备扫描陌生单词,能够很快获知陌生单词的词义。
2、一些场景下,用户可使用词典笔一次扫描一行或者多行文本信息,而如何对文本信息进行准确断句,提高输出文本的可读性和可利用性,是当前需要考虑的问题。
技术实现思路
1、本申请实施例提供了一种自然语言断句方法、装置、智能设备和存储介质,可以对文本信息进行准确断句,提高输出文本的可读性和可利用性。
2、第一方面,本申请实施例提供了一种自然语言断句方法,所述方法包括:
3、获取自然语言文本;
4、确定所述自然语言文本中的头尾语义特征标注;
5、基于所述头尾语义特征标注,对所述自然语言文本进行断句处理。
6、在第一方面的一种可能的实现方式中,所述确定所述自然语言文本中的头尾语义特征标注的步骤,包括:
7、将所述自然语言文本输入至预先训练完成的语言模型,得到所述自然语言文本中的头尾语义特征标注。
8、在第一方面的一种可能的实现方式中,所述将所述自然语言文本输入至预先训练完成的语言模型,得到所述自然语言
9、对所述自然语言文本进行分词处理,得到分词序列;
10、将所述分词序列输入至所述预先训练完成的语言模型中,得到所述分词序列中各分词的头尾语义特征标注。
11、在第一方面的一种可能的实现方式中,在所述将所述自然语言文本输入至预先训练完成的语言模型的步骤之前,还包括:
12、判断所述自然语言文本是否符合规则断句条件;
13、若符合规则断句条件,则根据预设规则对所述自然语言文本进行断句处理;
14、若不符合所述规则断句条件,则将所述自然语言文本输入至所述预先训练完成的语言模型。
15、在第一方面的一种可能的实现方式中,所述判断所述自然语言文本是否符合规则断句条件的步骤,包括:
16、判断所述自然语言文本中单词格式是否满足预设单句条件;
17、若所述自然语言文本中单词格式满足所述预设单句条件,则确定所述自然语言文本符合所述规则断句条件。
18、在第一方面的一种可能的实现方式中,所述方法还包括:
19、获取语句样本,所述语句样本包括标注样本语句和无标注样本语句,所述标注样本语句包括头尾标注;
20、利用所述语句样本训练多语言预训练模型,以使得所述多语言预训练模型的输出包括语句的头尾语义特征标注;
21、当所述多语言预训练模型的模型损失小于或者等于预设损失阈值时,得到训练完成的所述语言模型。
22、在第一方面的一种可能的实现方式中,所述基于所述头尾语义特征标注,对所述自然语言文本进行断句处理的步骤,包括:
23、对所述自然语言文本进行正则化处理;
24、基于所述头尾语义特征标注对经过所述正则化处理的自然语言文本进行分割,得到目标断句。
25、第二方面,本申请实施例提供了一种自然语言断句装置,包括:
26、文本获取单元,用于获取自然语言文本;
27、断句处理单元,用于确定所述自然语言文本中的头尾语义特征标注;还用于基于所述头尾语义特征标注,对所述自然语言文本进行断句处理。
28、第三方面,本申请实施例提供了一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的自然语言断句方法。
29、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的自然语言断句方法。
30、第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在智能设备上运行时,使智能设备执行如上述第一方面所述的自然语言断句方法。
31、本申请实施例中,智能设备获取自然语言文本后,先确定所述自然语言文本中的头尾语义特征标注,再基于所述头尾语义特征标注,对所述自然语言文本进行断句处理。本申请方案基于头尾语义特征标注对自然语言文本进行分割,实现语义断句,可提高断句的准确性,提升文本的可读性和可利用性。
本文档来自技高网...【技术保护点】
1.一种自然语言断句方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述自然语言文本中的头尾语义特征标注的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述自然语言文本输入至预先训练完成的语言模型,得到所述自然语言文本中的头尾语义特征标注的步骤,包括:
4.根据权利要求2所述的方法,其特征在于,在所述将所述自然语言文本输入至预先训练完成的语言模型的步骤之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述判断所述自然语言文本是否符合规则断句条件的步骤,包括:
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述头尾语义特征标注,对所述自然语言文本进行断句处理的步骤,包括:
8.一种自然语言断句装置,其特征在于,所述装置包括:
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的自然语言断句方法。
...【技术特征摘要】
1.一种自然语言断句方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述自然语言文本中的头尾语义特征标注的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述自然语言文本输入至预先训练完成的语言模型,得到所述自然语言文本中的头尾语义特征标注的步骤,包括:
4.根据权利要求2所述的方法,其特征在于,在所述将所述自然语言文本输入至预先训练完成的语言模型的步骤之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述判断所述自然语言文本是否符合规则断句条件的步骤,包括:
6.根据权利要求2所述的方法...
【专利技术属性】
技术研发人员:李凯,
申请(专利权)人:东莞市步步高教育软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。