一种语音信息的获取方法、装置、设备和存储介质制造方法及图纸

技术编号：28782900 阅读：14 留言：0更新日期：2021-06-09 11:16

本公开实施例公开了一种语音信息的获取方法、装置、设备和存储介质，该方法包括：获取第一语言的文本语料，并判断文本语料中是否包括第二语言的外来词；若文本语料中包括第二语言的外来词，则获取外来词在第二语言中的音素信息；根据第一语言与第二语言的音素关联关系，以及外来词在第二语言中的音素信息，获取外来词在第一语言中的音素信息。本公开实施例公开的技术方案，最终获取到的外来词的音素信息，既接近该词汇在源语言体系下的读音，又符合当前语言体系下的发音习惯，提高了文本语料转化为语音信息的语音合成效果。转化为语音信息的语音合成效果。转化为语音信息的语音合成效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音信息的获取方法、装置、设备和存储介质

[0001]本公开实施例涉及语音合成技术，尤其涉及一种语音信息的获取方法、装置、设备和存储介质。

技术介绍

[0002]随着科学技术的不断进步，语音合成技术得到了迅速发展，通过语音合成技术，可以将大量的文字资料转换为了语音资料，为人们的社会生活带来了极大便利。
[0003]在获取到文字资料后，通常是根据该文字资料的语言类型，借助该语言类型下文字与音素的对应规则，直接合成对应的语音资料；但是这样的获取方式，往往将文本语料中的外来词，按照与文本资料的语言类型对应的发音规则进行合成，并未考虑该外来词在其源语言体系中的读音，常常导致外来词的读音与其自身在源语言下的读音差距较大，无法真实反应其实际读音，语音合成的准确性较差。

技术实现思路

[0004]本公开提供了一种语音信息的获取方法、装置、设备和存储介质，以获取文本语料的语音信息。
[0005]第一方面，本公开实施例提供了一种语音信息的获取方法，包括：
[0006]获取第一语言的文本语料，并判断所述文本语料中是否包括第二语言的外来词；
[0007]若所述文本语料中包括第二语言的外来词，则获取所述外来词在所述第二语言中的音素信息；
[0008]根据所述第一语言与所述第二语言的音素关联关系，以及所述外来词在所述第二语言中的音素信息，获取所述外来词在所述第一语言中的音素信息。
[0009]第二方面，本公开实施例提供了一种语音信息的获取装置，包括：
[0010]外来...

【技术保护点】

【技术特征摘要】
1.一种语音信息的获取方法，其特征在于，包括：获取第一语言的文本语料，并判断所述文本语料中是否包括第二语言的外来词；若所述文本语料中包括第二语言的外来词，则获取所述外来词在所述第二语言中的音素信息；根据所述第一语言与所述第二语言的音素关联关系，以及所述外来词在所述第二语言中的音素信息，获取所述外来词在所述第一语言中的音素信息。2.根据权利要求1所述的方法，其特征在于，所述判断所述文本语料中是否包括第二语言的外来词，包括：根据文本分类模型以及命名实体识别模型，判断所述文本语料中是否包括第二语言的外来词；或根据文本分类模型，判断所述文本语料中是否包括第二语言的外来词。3.根据权利要求2所述的方法，其特征在于，所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型；和/或所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。4.根据权利要求1所述的方法，其特征在于，所述获取所述外来词在所述第二语言中的音素信息，包括：根据所述第二语言的词典信息，判断所述外来词是否为所述第二语言中的标准词；其中，所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系；若确定所述外来词是所述第二语言中的标准词，则根据所述第二语言的词典信息，获取所述外来词在所述第二语言中的音素信息。5.根据权利要求4所述的方法，其特征在于，在判断所述外来词是否为所述第二语言中的标准词后，包括：若确定所述外来词不是所述第二语言中的标准词，则根据所述第一语言与所述第二语言的字符关联关系，获取所述第二语言中与所述外来词对应的关联标准词；根...

【专利技术属性】
技术研发人员：顾宇，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人