语音转化方法、装置、设备及可读存储介质制造方法及图纸

技术编号：41921255 阅读：17 留言：0更新日期：2024-07-05 14:20

本申请公开了一种语音转化方法、装置、设备及可读存储介质，属于计算机技术领域。方法包括：对语音信息进行文本转化，得到多个候选文本信息；基于屏幕图像确定各个候选文本信息的目标出现指标，屏幕图像是在信息共享场景中产生语音信息时通过屏幕展示的与语音信息相关的图像，候选文本信息的目标出现指标表征在信息共享场景中出现该候选文本信息的可能性；从多个候选文本信息中选择目标出现指标满足要求的候选文本信息，得到语音信息的转化文本信息。由于屏幕图像与语音信息的相关性较高，且屏幕图像与语音信息体现了信息共享场景的特点，因此，通过屏幕图像确定的候选文本信息的目标出现指标准确性较高，从而提高了转化文本信息的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机，特别涉及一种语音转化方法、装置、设备及可读存储介质。

技术介绍

1、在会议场景、教学场景等信息共享场景中，演讲者有时会向听众进行讲解，这种情况下，可以将演讲的语音信息转化为文本信息，通过展示文本信息来帮助听众理解演讲内容，但是语音转化文本有可能并不准确。基于此，如何在该共享场景下的将语音信息准确转化为文本信息成为一个亟需解决的问题。

技术实现思路

1、本申请提供了一种语音转化方法、装置、设备及可读存储介质，可用于解决相关技术中的问题，所述技术方案包括如下内容。

2、一方面，提供了一种语音转化方法，所述方法包括：

3、获取待转化的语音信息和屏幕图像，所述屏幕图像是在信息共享场景中产生所述语音信息时通过屏幕展示的与所述语音信息相关的图像；

4、对所述语音信息进行文本转化，得到多个候选文本信息；

5、基于所述屏幕图像确定屏幕文本信息，基于所述屏幕文本信息确定各个候选文本信息的目标出现指标，任一个候选文本信息的目标出现指标用于表征在所述信息共享场景中出现所述任一个候选文本信息的可能性；

6、从所述多个候选文本信息中选择目标出现指标满足要求的候选文本信息，将所述目标出现指标满足要求的候选文本信息作为所述语音信息的转化文本信息。

7、另一方面，提供了一种语音转化装置，所述装置包括：

8、获取模块，用于获取待转化的语音信息和屏幕图像，所述屏幕图像是在信息共享场景中产生所述语音信息时通过屏幕

9、转化模块，用于对所述语音信息进行文本转化，得到多个候选文本信息；

10、确定模块，用于基于所述屏幕图像确定屏幕文本信息，基于所述屏幕文本信息确定各个候选文本信息的目标出现指标，任一个候选文本信息的目标出现指标用于表征在所述信息共享场景中出现所述任一个候选文本信息的可能性；

11、选择模块，用于从所述多个候选文本信息中选择目标出现指标满足要求的候选文本信息，将所述目标出现指标满足要求的候选文本信息作为所述语音信息的转化文本信息。

12、在一种可能的实现方式中，所述转化模块，用于对所述语音信息进行分割处理，得到多个语音片段；对于任一个语音片段，对所述任一个语音片段进行文本转化，得到所述任一个语音片段对应的字符；基于所述多个语音片段对应的字符，确定多个候选文本信息。

13、在一种可能的实现方式中，所述确定模块，用于对所述屏幕图像进行图像分割处理，得到文本图像和事物图像中的至少一项，所述文本图像用于反映通过所述屏幕展示的文本，所述事物图像用于反映通过所述屏幕展示的事物；基于所述文本图像和所述事物图像中的至少一项，确定屏幕文本信息。

14、在一种可能的实现方式中，所述确定模块，用于对所述文本图像进行文本识别处理，得到所述文本图像中的第一文本信息；基于所述第一文本信息确定至少一个第二文本信息，任一个第二文本信息与所述第一文本信息的语义相同或者相反或者相近；将所述第一文本信息和各个第二文本信息，确定为屏幕文本信息。

15、在一种可能的实现方式中，所述确定模块，用于对所述事物图像进行图像描述处理，得到第三文本信息，所述第三文本信息用于描述所述事物图像中的事物；基于所述第三文本信息确定至少一个第四文本信息，任一个第四文本信息与所述第三文本信息的语义相同或者相反或者相近；将所述第三文本信息和各个第四文本信息，确定为屏幕文本信息。

16、在一种可能的实现方式中，所述确定模块，用于对于任一个候选文本信息，对所述任一个候选文本信息进行分词处理，得到所述任一个候选文本信息包括的各个词语；基于所述屏幕文本信息，确定所述各个词语的目标出现指标，任一个词语的目标出现指标用于表征在所述信息共享场景中出现所述任一个词语的可能性；基于所述各个词语的目标出现指标，确定所述任一个候选文本信息的目标出现指标。

17、在一种可能的实现方式中，所述确定模块，用于获取所述各个词语的初始出现指标，任一个词语的初始出现指标用于表征在通用场景中出现所述任一个词语的可能性；对于任一个词语，基于所述屏幕文本信息，对所述任一个词语的初始出现指标进行调整，得到所述任一个词语的目标出现指标。

18、在一种可能的实现方式中，所述屏幕文本信息包括第一文本信息和各个第二文本信息；

19、所述确定模块，用于基于所述第一文本信息和所述各个第二文本信息，确定所述任一个词语的第一出现指标，所述任一个词语的第一出现指标用于表征在所述第一文本信息和所述各个第二文本信息中出现所述任一个词语的可能性；对所述任一个词语的第一出现指标和所述任一个词语的初始出现指标进行加权计算，得到所述任一个词语的目标出现指标。

20、在一种可能的实现方式中，所述屏幕文本信息包括第三文本信息和各个第四文本信息；

21、所述确定模块，用于基于所述第三文本信息和所述各个第四文本信息，确定所述任一个词语的第二出现指标，所述任一个词语的第二出现指标用于表征在所述第三文本信息和所述各个第四文本信息中出现所述任一个词语的可能性；对所述任一个词语的第二出现指标和所述任一个词语的初始出现指标进行加权计算，得到所述任一个词语的目标出现指标。

22、在一种可能的实现方式中，所述屏幕文本信息包括第一文本信息、各个第二文本信息、第三文本信息和各个第四文本信息；

23、所述确定模块，用于基于所述第一文本信息、所述各个第二文本信息、所述第三文本信息和所述各个第四文本信息，确定所述任一个词语的第三出现指标，所述任一个词语的第三出现指标用于表征在所述第一文本信息、所述各个第二文本信息、所述第三文本信息和所述各个第四文本信息中出现所述任一个词语的可能性；对所述任一个词语的第三出现指标和所述任一个词语的初始出现指标进行加权计算，得到所述任一个词语的目标出现指标。

24、在一种可能的实现方式中，所述确定模块，用于获取所述任一个候选文本信息的第一出现指标，所述任一个候选文本信息的第一出现指标用于表征将所述语音信息转化为所述任一个候选文本信息的可能性；基于所述各个词语的目标出现指标，确定所述任一个候选文本信息的第二出现指标，所述任一个候选文本信息的第二出现指标用于表征基于所述各个词语确定所述任一个候选文本信息的可能性；对所述任一个候选文本信息的第一出现指标和所述任一个候选文本信息的第二出现指标进行加权处理，得到所述任一个候选文本信息的目标出现指标。

25、另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现上述任一所述的语音转化方法。

26、另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一所述的语音转化方法。...

【技术保护点】

1.一种语音转化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行文本转化，得到多个候选文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述屏幕图像确定屏幕文本信息，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述文本图像，确定屏幕文本信息，包括：

5.根据权利要求3所述的方法，其特征在于，基于所述事物图像，确定屏幕文本信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述屏幕文本信息确定各个候选文本信息的目标出现指标，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述屏幕文本信息，确定所述各个词语的目标出现指标，包括：

8.根据权利要求7所述的方法，其特征在于，所述屏幕文本信息包括第一文本信息和各个第二文本信息；所述基于所述屏幕文本信息，对所述任一个词语的初始出现指标进行调整，得到所述任一个词语的目标出现指标，包括：

9.根据权利要求7所述的方法，其特征在于，所述屏幕文本信息包括第

10.根据权利要求7所述的方法，其特征在于，所述屏幕文本信息包括第一文本信息、各个第二文本信息、第三文本信息和各个第四文本信息；所述基于所述屏幕文本信息，对所述任一个词语的初始出现指标进行调整，得到所述任一个词语的目标出现指标，包括：

11.根据权利要求6所述的方法，其特征在于，所述基于所述各个词语的目标出现指标，确定所述任一个候选文本信息的目标出现指标，包括：

12.一种语音转化装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现如权利要求1至11任一所述的语音转化方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至11任一所述的语音转化方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至11任一所述的语音转化方法。

...

【技术特征摘要】