一种视频字幕翻译方法、装置以及设备制造方法及图纸

技术编号:35748255 阅读:19 留言:0更新日期:2022-11-26 18:53
本发明专利技术公开了一种视频字幕翻译方法、装置以及设备,视频字幕翻译方法包括:提取视频中的至少一个第一视频帧和/或第一视频帧序列;依据至少一个第一视频帧和/或第一视频帧序列确定视频所属的场景类型下的领域类型;依据场景类型下的领域类型对视频进行转写和翻译。本发明专利技术从视频本身的信息出发,对视频进行语义分析,从而确定视频所属的场景类型和细分领域,有助于在转写和翻译中明确确定转写和翻译结果。果。果。

【技术实现步骤摘要】
一种视频字幕翻译方法、装置以及设备


[0001]本专利技术涉及视频数据处理
,尤其涉及一种视频字幕翻译方法、装置以及设备。

技术介绍

[0002]如今,人们生活在信息爆炸的时代,可以轻松地获得来自世界各国、各领域的信息。相比于文字信息,人们更倾向于通过观看视频来了解世界。为了提高人们对视频的观看效率和观看质量,视频字幕翻译应用而生。视频字幕翻译主要包括将视频中的语音转写成文字和将转写后的文字翻译成特定语言的文字。视频字幕翻译的结果为观看视频提供了很大的便利,例如视频字幕方便观看者在观看外语视频时读取母语字幕,能更快地对视频内容进行理解;视频中的字幕辅助听障人士实现视频观看,拓宽了听障人士了解世界的渠道;另外,视频字幕方便观看者在静音模式下进行观看。
[0003]视频字幕翻译的效果取决于视频的转写效果和字幕的翻译效果。现有技术中,一方面通过数据标注、模型结构调整等方式提升转写和翻译模型的效果,以提升转写和字幕翻译的质量。另一方面通过音频切分(如SHAS音频切分方案)、文本断句等方案提升整体系统的翻译效果。
[0004]上述现有方案主要关注从视频中提取到的语音的转写以及转写后的文字的翻译,但是,同一个语音可能存在多个对应的文字,同一个文字可能存在不同的译文,上述现有方案无法准确确定转写和翻译的结果,导致最终呈现给用户的一部分字幕与视频本身没有相关性,导致视频的观看效果不佳。

技术实现思路

[0005]鉴于上述,本专利技术旨在提供一种视频字幕翻译方法、装置以及设备,并相应地提出一种计算机可读存储介质,从视频本身的信息出发,对视频进行语义分析,从而确定视频所属的场景类型和细分领域,有助于在转写和翻译中明确确定转写和翻译结果。
[0006]本专利技术采用的技术方案如下:
[0007]第一方面,本专利技术提供了一种视频字幕翻译方法,包括:
[0008]提取视频中的至少一个第一视频帧和/或第一视频帧序列;
[0009]依据至少一个第一视频帧和/或第一视频帧序列确定视频所属的场景类型下的领域类型;
[0010]依据场景类型下的领域类型对视频进行转写和翻译。
[0011]在其中一种可能的实现方式中,依据至少一个第一视频帧和/或第一视频帧序列确定视频所属的场景类型下的领域类型,具体包括:
[0012]识别第一视频帧和/或第一视频帧序列中与场景相关的信息,并从至少一个第一视频帧和/或第一视频帧序列中筛选出其中与场景相关的信息之间的相似度高于第一阈值的多个第二视频帧和/或第二视频帧序列;
[0013]依据多个第二视频帧和/或第二视频帧序列确定视频所属的场景类型;
[0014]识别第一视频帧和/或第一视频帧序列中与领域相关的信息,并从至少一个第一视频帧和/或第一视频帧序列中筛选出其中与领域相关的信息之间的相似度高于第二阈值的多个第三视频帧和/或第三视频帧序列;
[0015]依据多个第三视频帧和/或第三视频帧序列确定视频所属的领域类型,作为场景类型下的领域类型。
[0016]在其中一种可能的实现方式中,第三视频帧和/或第三视频帧序列中包含与场景类型相关的信息。
[0017]在其中一种可能的实现方式中,结合第一视频帧序列的图像信息和语音信息确定第一视频帧序列中与场景或领域相关的信息。
[0018]在其中一种可能的实现方式中,依据场景类型下的领域类型对视频进行转写和翻译,包括:
[0019]将视频中的语音转写为场景类型下的领域内的文字;
[0020]将文字翻译为场景类型下的领域内的译文。
[0021]第二方面,本专利技术提供了一种视频字幕翻译装置,包括提取模块、场景和领域确定模块以及转写翻译模块;
[0022]提取模块用于提取视频中的至少一个第一视频帧和/或第一视频帧序列;
[0023]场景和领域确定模块用于依据至少一个第一视频帧和/或第一视频帧序列确定视频所属的场景类型下的领域类型;
[0024]转写翻译模块用于依据场景类型下的领域类型对视频进行转写和翻译。
[0025]在其中一种可能的实现方式中,场景和领域确定模块包括第一筛选模块、场景类型确定模块、第二筛选模块以及领域类型确定模块;
[0026]第一筛选模块用于识别第一视频帧和/或第一视频帧序列中与场景相关的信息,并从至少一个第一视频帧和/或第一视频帧序列中筛选出其中与场景相关的信息之间的相似度高于第一阈值的多个第二视频帧和/或第二视频帧序列;
[0027]场景类型确定模块用于依据多个第二视频帧和/或第二视频帧序列确定视频所属的场景类型;
[0028]第二筛选模块用于识别第一视频帧和/或第一视频帧序列中与领域相关的信息,并从至少一个第一视频帧和/或第一视频帧序列中筛选出其中与领域相关的信息之间的相似度高于第二阈值的多个第三视频帧和/或第三视频帧序列;
[0029]领域类型确定模块用于依据多个第三视频帧和/或第三视频帧序列确定视频所属的领域类型,作为场景类型下的领域类型。
[0030]在其中一种可能的实现方式中,第一筛选模块用于结合第一视频帧序列的图像信息和语音信息确定第一视频帧序列中与场景相关的信息;
[0031]第二筛选模块用于结合第一视频帧序列的图像信息和语音信息确定第一视频帧序列中与领域相关的信息。
[0032]在其中一种可能的实现方式中,转写翻译模块包括转写模块和翻译模块;
[0033]转写模块用于将视频中的语音转写为场景类型下的领域内的文字;
[0034]翻译模块用于将文字翻译为场景类型下的领域内的译文。
[0035]第三方面,本专利技术提供了一种视频字幕翻译设备,包括:
[0036]一个或多个处理器、存储器以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行上述的视频字幕翻译方法。
[0037]第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现方式中的方法。
[0038]本专利技术的构思在于,从视频本身的信息出发,对视频进行语义分析,从而确定视频所属的场景类型和细分领域,有助于在转写和翻译中明确确定转写和翻译结果。另外,本专利技术设置了与每个场景类型下的细分领域对应的转写模型和翻译模型,大大提高了视频字幕翻译的精准度。
附图说明
[0039]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步描述,其中:
[0040]图1为本专利技术提供的视频字幕翻译方法的一个实施例的流程图;
[0041]图2为本专利技术提供的确定视频所属的场景类型下的领域类型的一个实施例的流程图;
[0042]图3为与图2所示的流程图对应的流程示意图;
[0043]图4为本专利技术提供的依据场景类型下的领域类型对视频进行转写的一个实例;...

【技术保护点】

【技术特征摘要】
1.一种视频字幕翻译方法,其特征在于,包括:提取视频中的至少一个第一视频帧和/或第一视频帧序列;依据所述至少一个第一视频帧和/或第一视频帧序列确定所述视频所属的场景类型下的领域类型;依据所述场景类型下的领域类型对所述视频进行转写和翻译。2.根据权利要求1所述的视频字幕翻译方法,其特征在于,依据所述至少一个第一视频帧和/或第一视频帧序列确定所述视频所属的场景类型下的领域类型,具体包括:识别所述第一视频帧和/或第一视频帧序列中与场景相关的信息,并从所述至少一个第一视频帧和/或第一视频帧序列中筛选出其中与场景相关的信息之间的相似度高于第一阈值的多个第二视频帧和/或第二视频帧序列;依据所述多个第二视频帧和/或第二视频帧序列确定所述视频所属的场景类型;识别所述第一视频帧和/或第一视频帧序列中与领域相关的信息,并从所述至少一个第一视频帧和/或第一视频帧序列中筛选出其中与领域相关的信息之间的相似度高于第二阈值的多个第三视频帧和/或第三视频帧序列;依据所述多个第三视频帧和/或第三视频帧序列确定所述视频所属的领域类型,作为所述场景类型下的领域类型。3.根据权利要求2所述的视频字幕翻译方法,其特征在于,所述第三视频帧和/或第三视频帧序列中包含与所述场景类型相关的信息。4.根据权利要求2所述的视频字幕翻译方法,其特征在于,结合所述第一视频帧序列的图像信息和语音信息确定所述第一视频帧序列中与场景或领域相关的信息。5.根据权利要求1所述的视频字幕翻译方法,其特征在于,依据所述场景类型下的领域类型对所述视频进行转写和翻译,包括:将所述视频中的语音转写为所述场景类型下的领域内的文字;将所述文字翻译为所述场景类型下的领域内的译文。6.一种视频字幕翻译装置,其特征在于,包括提取模块、场景和领域确定模块以及转写翻译模块;所述提取模块用于提取视频中的至少一个第一视频帧和/或第一视频帧序列;所述场景和领域确定模块用于依据所述至少一个第一视频帧和/或第一视频帧序列确定所述视频所属的场...

【专利技术属性】
技术研发人员:许瑞阳叶忠义张为泰刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1