本发明专利技术实施例公开了一种为本地视频文件匹配字幕文件的方法和装置,方法包括:获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;按照预设的规整化算法对第一视频文件名和字幕文件名集合中的字幕文件名进行规整化,获得标准化第一视频文件名和包含所有标准化字幕文件名的标准化字幕文件名集合;将标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与第一视频文件匹配的字幕文件。本发明专利技术实施例,更好更方便的为本地视频文件自动匹配字幕,提高了用户观看视频的体验。
【技术实现步骤摘要】
本专利技术涉及视频处理
,特别涉及一种为本地视频文件匹配字幕文件的方法和装置。
技术介绍
在线观看视频时一般是从网络自动匹配字幕,然而一些用户也会采用下载网络视频到本地,然后离线观看视频。当用户离线观看视频时,往往会出现视频文件和字幕文件从不同的下载源下载的现象,这会导致字幕文件名与视频文件名不完全相同,存在差异,使字幕文件不能被自动匹配,为用户观看视频带来不便。现有技术中,在本地匹配字幕时,一般采用的是与视频文件名完全相同的方式,gp字幕文件名与视频文件名相同则自动加载,不完全相同则不加载。这时就需要用户多进行一步手动的操作,手动选择字幕文件进行加载,或者手动将字幕文件重命名为与视频文件相同的文件名,再进行加载。这样比较浪费用户的观看时间。另外,也有采用字符串前缀相同,或最大相同子串的方式,即搜索与视频文件有相同字符串前缀的字幕文件,或搜索与视频文件有相同的最大子串的字幕文件,来为视频文件匹配字幕文件。这种方式显得不够智能,且采用这种方式,往往会出现字幕文件名与视频文件名的相似度特征值小的情况也去匹配,会产生比较大概率的误匹配,许多应该匹配的字幕没有被自动匹配,而不应匹配的又加载,为用户观看视频带来不便。
技术实现思路
本专利技术实施例的目的在于提供一种为本地视频文件匹配字幕文件的方法和装置,以实现本地视频文件更方便的自动匹配字幕文件。为达到上述目的,本专利技术实施例公开了一种为本地视频文件匹配字幕文件的方法,包括步骤:获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合;将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。较佳的,所述按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名,包括:对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件格式的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号;按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合,包括:对字幕文件名集合中的每个字幕文件名进行解析,获得所述每个字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。较佳的,所述获得包含本地字幕文件名的字幕文件名集合,为:根据预设的软件策略在本地搜索相应路径中的字幕文件,获得包含本地字幕文件名的字幕文件名集合。较佳的,若所述第一视频文件名包含英文字母,则所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:将第一视频文件名中包含的英文字母统一为预设的大写或小写格式;若字幕文件的文件名中包含英文字母,则所述按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名规整化之前,还包括:将字幕文件名集合中的文件名包含的英文字母统一为预设的大写或小写格式。较佳的,在所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:按照预设格式,提取所述第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词;将所述字幕文件名集合中核心词与所述第一核心词不一致的字幕文件名,从所述字幕文件名集合中删除;或,在所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算前,还包括:按预设格式,提取所述标准化第一视频文件名的第一核心词和标准化字幕文件名集合中的各个标准化字幕文件名的核心词;将标准化字幕文件名集合中核心词与所述第一核心词不一致的标准化字幕文件名,从所述标准化字幕文件名集合中删除。较佳的,所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算,包括:分别计算出所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的“编辑距离”;获得所述标准化第一视频文件名的字符长度;将计算出的所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离,和标准化第一视频文件名的字符长度,分别进行除法运算,将各个运算结果,确定为匹配特征值,该匹配特征值越低,匹配度越高。较佳的,所述将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件,包括:按照所述标准化第一视频文件名与每个标准化字幕文件名之间的匹配特征值,对标准化字幕文件名集合中的标准化字幕文件名进行排序,将匹配特征值最低的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。较佳的,所述对标准化字幕文件名集合中的标准化字幕文件名进行排序之前,还包括:将匹配特征值大于预设阈值的标准化字幕文件名,从所述标准化字幕文件名集合中删除。为达到上述目的,本专利技术实施例还公开了一种为本地视频文件匹配字幕文件的装置,所述装置包括:获取文件名模块,用于获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;规整化模块,用于按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合;计算模块,用于将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;确定模块,用于将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。较佳的,所述规整化模块包括:第一规整化子模块和第二规整化子模块,所述第一规整化子模块,用于对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号;所述第二规整化子模块,用于对字幕文件名集合中的每个字幕文件名进行解析,获得每个所述字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。较佳的,所述装置还包括格式统一模块,所述格式统一模块,用于当所述第一视频文件名包含英文字母时,在按照预设的规整化算法对所述第一视频文件名进行规整化之前,将第一视频文件名中包含的英文字母统一为预设的大写或小写格式;和当所述字幕文件本文档来自技高网...
【技术保护点】
一种为本地视频文件匹配字幕文件的方法,其特征在于,所述方法包括步骤:获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合;将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:左家永,陆其明,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。