一种多语言展示的方法、装置制造方法及图纸

技术编号：42541249 阅读：13 留言：0更新日期：2024-08-27 19:45

本发明专利技术公开了一种多语言展示的方法、装置，涉及语言展示技术领域，包括以下步骤：S1：以对面向视觉障碍人群的多语言展示的方法为例，对人员的语音信息进行获取以及内容识别，进而基于识别得到的语音内容进行语种识别，从而为后续进行多语言信息展示提供数据支撑。本发明专利技术提出了一种多语言展示的方法、装置，以对面向视觉障碍人群的多语言展示的方法为例，通过对人员的语音进行获取以及基于获取的语音进行语种识别操作，从而确定后续对需要展示信息的翻译语种信息，且在对需要展示信息进行翻译前，需要对需要展示的信息中的上下文不一致的句子的错误进行纠正，从而将上下文句子与当前句子进行拼接，保证了对需要展示的信息进行翻译时的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语言展示，具体为一种多语言展示的方法、装置。

技术介绍

1、随着经济全球化的不断推进，现有许多网站或者移动应用都需要实现国际化，支持以多种不同的语言进行展示，在申请号为201911310717.5的中国专利中公开了“一种页面多语言展示方法、其装置、电子设备及计算机存储介质，该方法包括：设置包含多种语言数据的语言包；在所述vue项目引入的vuex插件中的状态管理属性中定义一个用于控制所述页面展示的语言的展示语言变量；获取用户的语言选择指令；根据所述语言选择指令，确定所述页面当前需要展示的目标语言；将所述展示语言变量设置为与所述目标语言相对应的值，以使所述页面展示所述目标语言，其利用插件vuex中的状态管理属性实现了页面的国际化，可以支持多种语言的切换展示，而且不需要增加重复的前端页面，有利于提升页面响应速度和减少代码体积。”；

2、该现有技术仅仅解决了现有的前端多语言展示方法在进行页面刷新后，会自行重置到默认语言，且后端反馈至前端的数据也无法支持多语言展示的问题，未考虑到在面向存在视觉障碍的群体时，需要通过语音获取以及语种识别的方式，确定后续需要展示信息翻译的语种，且在进行信息翻译前，需要对需要翻译的信息进行行文纠错，以保证后续对信息整体翻译时的准确性，并需要通过对翻译得到的译文进行质量评估的方式对译文进行筛选，进一步保证译文的准确性，且在公共场合时需要避免出现干扰他人的情况。

技术实现思路

1、本专利技术的目的在于提供一种多语言展示的方法、装置，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种多语言展示的方法，包括以下步骤：

3、s1：以对面向视觉障碍人群的多语言展示的方法为例，对人员的语音信息进行获取以及内容识别，进而基于识别得到的语音内容进行语种识别，从而为后续进行多语言信息展示提供数据支撑；

4、s2：基于识别得到的语种结果，对需要展示的信息进行语言翻译，并对翻译得到的信息进行质量评估，从而对翻译得到的信息进行筛选工作；

5、s3：基于筛选后的翻译后的信息，进行翻译信息展示，并对翻译信息进行记录留存，从而便于以后有需求时直接进行信息展示。

6、优选的，所述步骤s1还包括以对面向视觉障碍人群的多语言展示的方法为例，对人员的语音信息进行获取以及内容识别，具体操作为对人员的语音信息进行获取以及语音内容识别操作，且对获取的语音信息进行预加重操作，以对语音传输过程中高频部分的能量损耗进行补充，并对获取的语音信息进行分帧和加窗操作，以保证语音信息的短时平稳，且通过快速傅里叶变换将语音信息转换为频域信号，其具体表达式如下：

7、

8、式中，fm[k]表示语音信息经过快速傅里叶变换后的结果，n表示窗口大小，m表示第m个音频帧，t表示帧移长度，x[·]表示时域离散信号，n表示窗口大小为n，并对频域特征进行提取，且基于提取得到的频域特征，使用三角带通滤波器组再进行一次变换，并对变换结果取对数得到fbank特征。

9、优选的，所述步骤s1还包括使用specaugment技术对fbank特征选择随机大小区域进行mask，并基于conformer架构构建多语种语音识别模型，包括共享特征提取器和语种识别器，其中共享特征提取器由14层conformer块组成，为所有语种共享，其中语种识别器由一个conformer块和一个线性映射层组成，使得每个语种都有一个不同的单独模块，基于输入的标记的随机大小区域的fbank特征，将多语种语音识别模型的输出大小与每个语种的词典大小相匹配。

10、优选的，所述步骤s1还包括通过softmax函数将多语种语音识别模型的输出限制在0-1之间，在通过贪心算法对经softmax函数处理后的多语种语音识别模型的输出进行解码，除去无意义的空白帧字符，得到解码序列，并通过概率算法对解码字符的平均几何概率进行计算，其具体表达式如下：

11、

12、式中，l表示解码长度，t表示解码长度为t，p<|>表示概率求解，zt表示解码长度为t时的解码序列，x表示语音序列，并对计算结果取对数得到当前语种上的置信度，将所有语种的置信度值进行从大到小排列操作，选取置信度值最大的语种作为该语音的语种识别结果。

13、优选的，所述步骤s2还包括基于步骤s1得到的语种识别结果，对需要展示的信息进行翻译操作，具体操作为基于多源编码器构建信息修复模型，由源语言句子编码器、不一致目标语言句子编码器、额外的交叉注意力层以及一致目标语言句子编码器组成，从而通过信息修复模型对需要展示的信息中的上下文不一致的句子的错误进行纠正，从而将上下文句子与当前句子进行拼接，保证了对需要展示的信息进行翻译时的准确性。

14、优选的，所述步骤s2还包括通过机器翻译对修复后的需要展示的信息进行语言翻译，并对翻译得到的信息进行质量评估，具体操作为基于对修复后的需要展示的信息的机器翻译结果，通过大数据技术获取翻译从业者根据需要展示的信息对机器翻译结果进行手工编辑得到的人工后编辑译文，并通过tercom脚本对照机器翻译结果和人工后编辑译文得到替换、插入、删除以及移动操作的次数，将替换、插入、删除以及移动操作的次数相加得到总的操作数，再除以人工后编辑译文的词的个数，得到机器翻译的质量评估结果，并将机器翻译的质量评估结果与预设的译文质量阈值进行比对，当将机器翻译的质量评估结果低于预设的译文质量阈值时，剔除该机器翻译结果并重新进行翻译操作，反之则使用机器翻译结果，从而实现对翻译得到的信息进行筛选工作。

15、优选的，所述步骤s3还包括基于筛选后的翻译后的信息，进行翻译信息展示，具体操作后由于面向人群为存在视觉障碍的群体，基于筛选后的翻译后的信息通过语音播报的方式实现听觉代偿设计，且进一步在公共场所通过设置声音控制罩的方式，使得人员在公共场所内的特定区域才能听见语音播报声音，从而避免出现多人干扰的情况，且对筛选后的翻译后的信息进行留存记录，从而便于以后有需求时直接进行信息展示，提高工作效率，以及后续面对存在不同障碍的同语种人群时，快速获取信息并设计不同的代偿方式进行展示。

16、一种多语言展示的装置，包括语种识别模块，所述语种识别模块用于对人员的语音信息进行获取以及内容识别，进而基于识别得到的语音内容进行语种识别，从而为后续进行多语言信息展示提供数据支撑；

17、信息翻译模块，所述信息翻译模块用于基于语种识别模块内识别得到的语种结果，对需要展示的信息进行语言翻译，并对翻译得到的信息进行质量评估，从而对翻译得到的信息进行筛选工作；

18、翻译信息展示模块，所述翻译信息展示模块用于基于信息翻译模块内筛选后的翻译后的信息，进行翻译信息展示，并对翻译信息进行记录留存，从而便于以后有需求时直接进行信息展示。

19、与现有技术相比，本专利技术的有益效果至少包括：本专利技术提出了一种多语言展示的方法、装置，以对面向视觉障碍人群的本文档来自技高网...

【技术保护点】

1.一种多语言展示的方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S1还包括以对面向视觉障碍人群的多语言展示的方法为例，对人员的语音信息进行获取以及内容识别，具体操作为对人员的语音信息进行获取以及语音内容识别操作，且对获取的语音信息进行预加重操作，以对语音传输过程中高频部分的能量损耗进行补充，并对获取的语音信息进行分帧和加窗操作，以保证语音信息的短时平稳，且通过快速傅里叶变换将语音信息转换为频域信号，并对频域特征进行提取，且基于提取得到的频域特征，使用三角带通滤波器组再进行一次变换，并对变换结果取对数得到FBank特征。

3.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S1还包括使用SpecAugment技术对FBank特征选择随机大小区域进行mask，并基于Conformer架构构建多语种语音识别模型，包括共享特征提取器和语种识别器，其中共享特征提取器由14层Conformer块组成，为所有语种共享，其中语种识别器由一个Conformer块和一个线性映射层组成，使得每个语种都有一个不同

4.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S1还包括通过softmax函数将多语种语音识别模型的输出限制在0-1之间，在通过贪心算法对经softmax函数处理后的多语种语音识别模型的输出进行解码，除去无意义的空白帧字符，得到解码序列，并通过概率算法对解码字符的平均几何概率进行计算，并对计算结果取对数得到当前语种上的置信度，将所有语种的置信度值进行从大到小排列操作，选取置信度值最大的语种作为该语音的语种识别结果。

5.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S2还包括基于步骤S1得到的语种识别结果，对需要展示的信息进行翻译操作，具体操作为基于多源编码器构建信息修复模型，由源语言句子编码器、不一致目标语言句子编码器、额外的交叉注意力层以及一致目标语言句子编码器组成，从而通过信息修复模型对需要展示的信息中的上下文不一致的句子的错误进行纠正，从而将上下文句子与当前句子进行拼接，保证了对需要展示的信息进行翻译时的准确性。

6.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S2还包括通过机器翻译对修复后的需要展示的信息进行语言翻译，并对翻译得到的信息进行质量评估，具体操作为基于对修复后的需要展示的信息的机器翻译结果，通过大数据技术获取翻译从业者根据需要展示的信息对机器翻译结果进行手工编辑得到的人工后编辑译文，并通过TERCOM脚本对照机器翻译结果和人工后编辑译文得到替换、插入、删除以及移动操作的次数，将替换、插入、删除以及移动操作的次数相加得到总的操作数，再除以人工后编辑译文的词的个数，得到机器翻译的质量评估结果，并将机器翻译的质量评估结果与预设的译文质量阈值进行比对，当将机器翻译的质量评估结果低于预设的译文质量阈值时，剔除该机器翻译结果并重新进行翻译操作，反之则使用机器翻译结果，从而实现对翻译得到的信息进行筛选工作。

7.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤S3还包括基于筛选后的翻译后的信息，进行翻译信息展示，具体操作后由于面向人群为存在视觉障碍的群体，基于筛选后的翻译后的信息通过语音播报的方式实现听觉代偿设计，且进一步在公共场所通过设置声音控制罩的方式，使得人员在公共场所内的特定区域才能听见语音播报声音，从而避免出现多人干扰的情况，且对筛选后的翻译后的信息进行留存记录，从而便于以后有需求时直接进行信息展示，提高工作效率，以及后续面对存在不同障碍的同语种人群时，快速获取信息并设计不同的代偿方式进行展示。

8.一种多语言展示的装置，其特征在于：包括语种识别模块(101)，所述语种识别模块(101)用于对人员的语音信息进行获取以及内容识别，进而基于识别得到的语音内容进行语种识别，从而为后续进行多语言信息展示提供数据支撑；

...

【技术特征摘要】

1.一种多语言展示的方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤s1还包括以对面向视觉障碍人群的多语言展示的方法为例，对人员的语音信息进行获取以及内容识别，具体操作为对人员的语音信息进行获取以及语音内容识别操作，且对获取的语音信息进行预加重操作，以对语音传输过程中高频部分的能量损耗进行补充，并对获取的语音信息进行分帧和加窗操作，以保证语音信息的短时平稳，且通过快速傅里叶变换将语音信息转换为频域信号，并对频域特征进行提取，且基于提取得到的频域特征，使用三角带通滤波器组再进行一次变换，并对变换结果取对数得到fbank特征。

3.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤s1还包括使用specaugment技术对fbank特征选择随机大小区域进行mask，并基于conformer架构构建多语种语音识别模型，包括共享特征提取器和语种识别器，其中共享特征提取器由14层conformer块组成，为所有语种共享，其中语种识别器由一个conformer块和一个线性映射层组成，使得每个语种都有一个不同的单独模块，基于输入的标记的随机大小区域的fbank特征，将多语种语音识别模型的输出大小与每个语种的词典大小相匹配。

4.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤s1还包括通过softmax函数将多语种语音识别模型的输出限制在0-1之间，在通过贪心算法对经softmax函数处理后的多语种语音识别模型的输出进行解码，除去无意义的空白帧字符，得到解码序列，并通过概率算法对解码字符的平均几何概率进行计算，并对计算结果取对数得到当前语种上的置信度，将所有语种的置信度值进行从大到小排列操作，选取置信度值最大的语种作为该语音的语种识别结果。

5.根据权利要求1所述的一种多语言展示的方法，其特征在于：所述步骤s2还包括基于步骤s1得到的语种识别结果，对需要展示的信息进行翻译操作，具体操作为基于多源编码器构建信息修复模型...

【专利技术属性】
技术研发人员：于洋，张靖，
申请(专利权)人：上海星汉信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人