一种断句方法及装置制造方法及图纸

技术编号：24170224 阅读：23 留言：0更新日期：2020-05-16 02:42

本申请公开一种断句方法及装置，属于自然语言处理技术领域，该方法包括：在缓存的字符序列中，从起始位置开始截取出第一长度的字符序列，其中，缓存的字符序列是对采集到的语音信号进行语音识别后得到的；将本次截取的字符序列输入到预先训练的断句模型中进行断句；若断句后的字符序列中包含断句标识，输出断句标识之前的字符，将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后，作为断句模型的下次输入，这样，断句标识后的字符还可参与下一次断句处理，不会丢弃任何一个字符，并且，每次输出的均是断句处理后的语义完整的句子，易于阅读和理解，因此，用户体验较好。

A sentence breaking method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种断句方法及装置
本申请涉及自然语言处理
，尤其涉及一种断句方法及装置。
技术介绍
近年来，随着语音识别技术的快速发展，语音识别的应用领域也越来越多，如发语音消息，同声传译等。一般地，在发语音消息时，用户说的话都比较短、且语义完整，所以不需要进行断句处理，而在同声传译中，可能需要实时地向用户展示发言者的讲话内容，目前在对发言者的语音数据进行识别得到字符序列以后，只是实时地向用户展示这些字符，并未对字符序列进行断句处理，这样，向用户展示的可能会是断续的语义不完整的句子，非常不易于阅读和理解，因此，用户体验也比较差。
技术实现思路
本申请实施例提供一种断句方法及装置，用以解决现有技术中在进行语音识别后，向用户展示的句子不完整、不易于阅读和理解，用户体验差的问题。第一方面，本申请实施例提供的一种断句方法，包括：在缓存的字符序列中，从起始位置开始截取出第一长度的字符序列，其中，缓存的字符序列是对采集到的语音信号进行语音识别后得到的；将本次截取的字符序列输入到预先训练的断句模型中进行断句；若断句后的字符序列中包含断句标识，输出断句标识之前的字符，将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后，作为断句模型的下次输入。采用上述方案，对缓存中利用语音识别技术得到的字符序列，每次从起始位置开始截取出第一长度的字符序列，之后，将本次截取的字符序列输入到断句模型中进行断句处理，若确定断句后的字符序列中包含断句标识，则输出断句标识之前的字符，并...

【技术保护点】
1.一种断句方法，其特征在于，包括：/n在缓存的字符序列中，从起始位置开始截取出第一长度的字符序列，其中，缓存的字符序列是对采集到的语音信号进行语音识别后得到的；/n将本次截取的字符序列输入到预先训练的断句模型中进行断句；/n若断句后的字符序列中包含断句标识，输出所述断句标识之前的字符，将所述断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后，作为所述断句模型的下次输入。/n

【技术特征摘要】
1.一种断句方法，其特征在于，包括：
在缓存的字符序列中，从起始位置开始截取出第一长度的字符序列，其中，缓存的字符序列是对采集到的语音信号进行语音识别后得到的；
将本次截取的字符序列输入到预先训练的断句模型中进行断句；
若断句后的字符序列中包含断句标识，输出所述断句标识之前的字符，将所述断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后，作为所述断句模型的下次输入。

2.如权利要求1所述的方法，其特征在于，所述第二长度与所述第一长度相同，或者所述第二长度与所述断句标识之后的字符的长度之和为所述第一长度。

3.如权利要求1所述的方法，其特征在于，若断句后的字符序列中存在至少两个断句标识，则输出所述断句标识之前的字符，包括：
若确定所述断句后的字符序列中存在至少两个断句标识，则按照所述至少两个断句标识的排列顺序，逐次输出每个断句标识之前的字符；或者
若确定所述断句后的字符序列中存在至少两个断句标识，则将最后一个断句标识之前的所有字符作为一个句子输出，且所输出的句子中包含断句标识。

4.如权利要求1所述的方法，其特征在于，若断句后的字符序列中未包含断句标识，所述方法还包括：
将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后，作为所述断句模型的下次输入。

5.如权利要求4所述的方法，其特征在于，所述第三长度与所述第一长度相同。

6.如权利要求4所述的方法，其特征在于，将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后，作为所述断句模型的下次输入之后，所述方法还包括：

【专利技术属性】
技术研发人员：李晓普，王阳阳，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人