一种断句方法及装置制造方法及图纸

技术编号:24170224 阅读:23 留言:0更新日期:2020-05-16 02:42
本申请公开一种断句方法及装置,属于自然语言处理技术领域,该方法包括:在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;将本次截取的字符序列输入到预先训练的断句模型中进行断句;若断句后的字符序列中包含断句标识,输出断句标识之前的字符,将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为断句模型的下次输入,这样,断句标识后的字符还可参与下一次断句处理,不会丢弃任何一个字符,并且,每次输出的均是断句处理后的语义完整的句子,易于阅读和理解,因此,用户体验较好。

A sentence breaking method and device

【技术实现步骤摘要】
一种断句方法及装置
本申请涉及自然语言处理
,尤其涉及一种断句方法及装置。
技术介绍
近年来,随着语音识别技术的快速发展,语音识别的应用领域也越来越多,如发语音消息,同声传译等。一般地,在发语音消息时,用户说的话都比较短、且语义完整,所以不需要进行断句处理,而在同声传译中,可能需要实时地向用户展示发言者的讲话内容,目前在对发言者的语音数据进行识别得到字符序列以后,只是实时地向用户展示这些字符,并未对字符序列进行断句处理,这样,向用户展示的可能会是断续的语义不完整的句子,非常不易于阅读和理解,因此,用户体验也比较差。
技术实现思路
本申请实施例提供一种断句方法及装置,用以解决现有技术中在进行语音识别后,向用户展示的句子不完整、不易于阅读和理解,用户体验差的问题。第一方面,本申请实施例提供的一种断句方法,包括:在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;将本次截取的字符序列输入到预先训练的断句模型中进行断句;若断句后的字符序列中包含断句标识,输出断句标识之前的字符,将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为断句模型的下次输入。采用上述方案,对缓存中利用语音识别技术得到的字符序列,每次从起始位置开始截取出第一长度的字符序列,之后,将本次截取的字符序列输入到断句模型中进行断句处理,若确定断句后的字符序列中包含断句标识,则输出断句标识之前的字符,并将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列进行拼接,作为断句模型的下次输入,这样,断句标识后的字符还可参与下一次断句处理,不会丢弃任何一个字符,并且,每次输出的均是断句处理后的语义完整的句子,易于阅读和理解,因此,用户体验比较好。在具体实施时,若想要使每次截取的字符序列的长度相同,则可设置第二长度与第一长度相同;若想要使每次输入到断句模型中的字符序列的长度相同,则可设置第二长度与断句标识之后的字符的长度之和为第一长度。在一种可能的实施方式下,断句后的字符序列中可能会存在至少两个断句标识,此时,可按照这至少两个断句标识的排列顺序,逐次输出每个断句标识之前的字符;或者,将最后一个断句标识之前的所有字符作为一个句子输出,且所输出的句子中包含断句标识。在一种可能的实施方式下,断句后的字符序列中不包含断句标识,此时,可将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入。在一种可能的实施方式下,第三长度与第一长度相同。在一种可能的实施方式下,将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为断句模型的下次输入之后,还可将第一长度与第三长度之和作为更新后的第一长度,并基于更新后的第一长度进行下次断句处理。在一种可能的实施方式下,根据以下步骤训练断句模型:对获取的每个语料句子进行分词处理,确定该语料句子包含的词语;确定该语料句子包含的词语中的稀有词语,利用子词切分算法对稀有词语进行切分处理;将分词处理和切分处理后得到的词语形成的序列,输入到深度学习模型中进行断句标注;以及根据每个语料句子原有的断句标识和深度学习模型输出的该语料句子对应的断句标注,调整深度学习模型的参数,建立断句模型。第二方面,本申请实施例提供的一种断句装置,包括:截取模块,用于在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;断句模块,用于将本次截取的字符序列输入到预先训练的断句模型中进行断句;处理模块,用于若断句后的字符序列中包含断句标识,输出所述断句标识之前的字符,将所述断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为所述断句模型的下次输入。在一种可能的实施方式下,所述第二长度与所述第一长度相同,或者所述第二长度与所述断句标识之后的字符的长度之和为所述第一长度。在一种可能的实施方式下,所述处理模块具体用于:若确定所述断句后的字符序列中存在至少两个断句标识,则按照所述至少两个断句标识的排列顺序,逐次输出每个断句标识之前的字符;或者若确定所述断句后的字符序列中存在至少两个断句标识,则将最后一个断句标识之前的所有字符作为一个句子输出,且所输出的句子中包含断句标识。在一种可能的实施方式下,若断句后的字符序列中未包含断句标识,所述处理模块还用于:将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入。在一种可能的实施方式下,所述第三长度与所述第一长度相同。在一种可能的实施方式下,所述处理模块还用于:在将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入之后,将第一长度与第三长度之和作为更新后的第一长度,并基于更新后的第一长度进行下次断句处理。在一种可能的实施方式下,还包括训练模块,用于根据以下步骤训练断句模型:对获取的每个语料句子进行分词处理,确定该语料句子包含的词语;确定该语料句子包含的词语中的稀有词语,利用子词切分算法对所述稀有词语进行切分处理;将分词处理和切分处理后得到的词语形成的序列,输入到深度学习模型中进行断句标注;以及根据每个语料句子原有的断句标识和所述深度学习模型输出的该语料句子对应的断句标注,调整所述深度学习模型的参数,建立断句模型。第三方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述断句方法。第四方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述断句方法。另外,第二方面至第四方面中任一种设计方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的将断句方法应用于同声传译时的场景示意图;图2为本申请实施例提供的建立断句模型的方法流程图;图3为本申请实施例提供的断句方法的流程图;图4为本申请实施例提供的用于实现断句方法的电子设备的硬件结构示意图;图5为本申请实施例提供的断句装置的结构示意图。具体实施方式为了在语音识别后,输出语义完整的句子,提高用户体验,本申请实施例提供了一种断句方法及装置。以下本文档来自技高网...

【技术保护点】
1.一种断句方法,其特征在于,包括:/n在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;/n将本次截取的字符序列输入到预先训练的断句模型中进行断句;/n若断句后的字符序列中包含断句标识,输出所述断句标识之前的字符,将所述断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为所述断句模型的下次输入。/n

【技术特征摘要】
1.一种断句方法,其特征在于,包括:
在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;
将本次截取的字符序列输入到预先训练的断句模型中进行断句;
若断句后的字符序列中包含断句标识,输出所述断句标识之前的字符,将所述断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为所述断句模型的下次输入。


2.如权利要求1所述的方法,其特征在于,所述第二长度与所述第一长度相同,或者所述第二长度与所述断句标识之后的字符的长度之和为所述第一长度。


3.如权利要求1所述的方法,其特征在于,若断句后的字符序列中存在至少两个断句标识,则输出所述断句标识之前的字符,包括:
若确定所述断句后的字符序列中存在至少两个断句标识,则按照所述至少两个断句标识的排列顺序,逐次输出每个断句标识之前的字符;或者
若确定所述断句后的字符序列中存在至少两个断句标识,则将最后一个断句标识之前的所有字符作为一个句子输出,且所输出的句子中包含断句标识。


4.如权利要求1所述的方法,其特征在于,若断句后的字符序列中未包含断句标识,所述方法还包括:
将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入。


5.如权利要求4所述的方法,其特征在于,所述第三长度与所述第一长度相同。


6.如权利要求4所述的方法,其特征在于,将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入之后,所述方法还包括:

【专利技术属性】
技术研发人员:李晓普王阳阳
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1