字幕敏感信息自动屏蔽转译方法和装置制造方法及图纸

技术编号:29018946 阅读:23 留言:0更新日期:2021-06-26 05:19
本申请涉及一种字幕敏感信息自动屏蔽转译方法和装置,其中该方法包括:首先获取字幕源文件,对源字幕文件进行解析,得到字幕解析结果;然后基于预设语义识别算法和字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的句义词义;通过预设语义识别算法以及上述步骤中确定的词义和语义,对字幕中词语和语句进行敏感度判断,确定敏感信息;最后将敏感信息用近义词代替,生成脱敏字幕。如此,通过本申请提供的字幕敏感信息自动屏蔽转译方法,可以实现自动识别敏感信息,并用近义词将敏感信息代替,从而实现将敏感信息自动屏蔽转译,解决了现有技术中,敏感信息的筛选和处理都需要人工处理,工作人员工作量大且处理速度慢的问题。问题。问题。

【技术实现步骤摘要】
字幕敏感信息自动屏蔽转译方法和装置


[0001]本申请涉及计算机
,尤其涉及一种字幕敏感信息自动屏蔽转译方法和装置。

技术介绍

[0002]现阶段电视机用户看到的影视视频内容可涵盖不同类型、不同国家、不同语言,影视业务内容投放也具备大量的节目资源对于运营工作来讲具有不小的工作体量。用户在浏览不同国家、不同地区的语种节目需要借助对应字幕、台词来辅助理解影视节目所表达的意图。但字幕信息中会处在敏感词等问题,影响用户观影体验。
[0003]现有技术中,一般为后期人工编辑校准,根据演员剧本等具备台词的电影、电视剧进行字幕编辑,这些传统方式对人工依赖较大,工作量大,处理速度不足。

技术实现思路

[0004]本申请针对目前敏感字幕筛选编辑中,存在的对人工依赖性高、人工工作量大,处理速度慢的问题,提供一种字幕敏感信息自动屏蔽转译方法和装置,实现对字幕敏感信息的自动屏蔽转译,从而解放人力,提高处理速度。
[0005]本申请的上述目的是通过以下技术方案来实现的:
[0006]第一方面,本申请实施例提供一种字幕敏感信息自动屏蔽转译方法,包括:
[0007]获取字幕源文件;
[0008]对所述字幕源文件进行解析,得到字幕解析结果;
[0009]基于预设语义识别算法和所述字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义;
[0010]基于所述词义和语义通过预设敏感语义词识别算法对字幕中词语和语句进行敏感度判断,确定敏感信息;/>[0011]将敏感信息用近义词代替,生成脱敏字幕。
[0012]可选的,所述对所述字幕源文件进行解析包括对字幕文件属性进行解析;其中,所述字幕文件属性包括文件格式、台词时间点和文件大小。
[0013]可选的,所述基于预设语义识别算法和所述字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义包括:
[0014]通过预设语义识别算法对字幕台词进行关联度计算;
[0015]根据高关联度的多个台词确定语境;
[0016]将连贯度高的语句在该语境下判断句义;
[0017]将连贯度高的词语在该语境下判断词义。
[0018]可选的,所述基于所述词义和语义通过预设敏感词语识别算法对字幕中词语和语句进行敏感度判断,确定敏感信息包括:
[0019]基于所述词义通过预设敏感语义识别算法对字幕中词语进行敏感度判断,确定敏
感词语;
[0020]基于所述句义通过预设敏感语义识别算法对字幕中语句进行敏感度判断,确定敏感语句。
[0021]可选的,所述将敏感信息用近义词代替,生成脱敏字幕包括:
[0022]在预设词库中找到所述敏感词语的近义词,替换敏感词语,生成脱敏字幕;
[0023]在预设词库中找到所述敏感语句中多个词语的近义词,将多个近义词组成语义与所述敏感语句语义相近的语句,生成脱敏语句。
[0024]可选的,所述预设词库为预设系统中的本地词库。
[0025]可选的,所述预设词库为在线第三方词库。
[0026]第二方面,本申请实施例提供一种字幕敏感信息自动屏蔽转译装置一种字幕敏感信息自动屏蔽转译装置,其特征在于,包括:
[0027]获取模块,用于获取字幕源文件;
[0028]解析模块,用于对源字幕文件进行文件格式、台词时间点、文件大小解析,得到字幕解析结果;
[0029]识别判断模块,用于通过预设语义分析算法,对解析字符进行识别和关联度计算,判断词义语义,并基于词义语义判断敏感信息;
[0030]替换模块,用于用近义词替换敏感信息,生成脱敏字幕。
[0031]可选的,还包括存储模块;
[0032]所述存储模块用于保存和存储所述脱敏字幕。
[0033]可选的,还包括通信模块;
[0034]所述通信模块分别与所述存储模块和外部播放设备通信连接,用于将所述脱敏字幕发送至外部播放设备中,供外部播放设备使用所述脱敏字幕。
[0035]本申请的实施例提供的技术方案可以包括以下有益效果:
[0036]本申请的实施例提供的技术方案中,首先获取字幕源文件,对源字幕文件进行解析,得到字幕解析结果;然后基于预设语义识别算法和字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义;通过预设敏感语义词识别算法以及上述步骤中确定的词义和语义,对字幕中词语和语句进行敏感度判断,确定敏感信息;最后将敏感信息用近义词代替,生成脱敏字幕。如此,通过本申请实施例提供的方法,可以实现自动识别敏感信息,并用近义词将敏感信息代替,从而实现将敏感信息自动屏蔽转译,解决了现有技术中,敏感信息的筛选和处理都需要人工处理,工作量大且处理速度慢的问题。
[0037]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0038]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0039]图1为本申请实施例示出的一种字幕敏感信息自动屏蔽转译方法的流程示意图;
[0040]图2为本申请另一实施例示出的一种字幕敏感信息自动屏蔽转译方法的流程示意
图;
具体实施方式
[0041]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0042]实施例:
[0043]参照图1,图1为本申请实施例示出的一种字幕敏感信息自动屏蔽转译方法的流程示意图。如图1所示,该方法包括:
[0044]S101、获取字幕源文件;
[0045]具体的,获取的字幕源文件可以是不同国家不同语言的字幕,可以直接获取只包含字幕的文件,也可以是通过预设系统或装置在待播放视频中对字幕进行提取获取的字幕文件,这些字幕中主要包括视频中人物的对白、旁白等。
[0046]S102、对所述字幕源文件进行解析,得到字幕解析结果;
[0047]具体的,在获取字幕源文件后,需要对字幕原文件进行解析,即在字幕源文件全量导入后,解析字幕源文件的文件数据,其中,文件属性可以包括文件格式、台词时间点、文件大小等,对字幕源文件进行初步解析处理,方便后续语义识别以及敏感信息判断处理,提高处理速度。
[0048]S103、基于预设语义识别算法和所述字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义;
[0049]具体的,将字幕以语义识别等算法进行关联度计算,进行字幕台词的场景识别和词语校准。判断各个词语以及句子之间的关联度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种字幕敏感信息自动屏蔽转译方法,其特征在于,包括:获取字幕源文件;对所述字幕源文件进行解析,得到字幕解析结果;基于预设语义识别算法和所述字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义;基于所述词义和语义通过预设敏感语义词识别算法对字幕中词语和语句进行敏感度判断,确定敏感信息;将敏感信息用近义词代替,生成脱敏字幕。2.根据权利要求1所述的字幕敏感信息自动屏蔽转译方法,其特征在于,所述对所述字幕源文件进行解析包括对字幕文件属性进行解析;其中,所述字幕文件属性包括文件格式、台词时间点和文件大小。3.根据权利要求1所述的字幕敏感信息自动屏蔽转译方法,其特征在于,所述基于预设语义识别算法和所述字幕解析结果对字幕中的各台词进行关联度计算,判断字幕中词语的词义和字幕中语句的句义包括:通过预设语义识别算法对字幕台词进行关联度计算;根据高关联度的多个台词确定语境;将连贯度高的语句在该语境下判断句义;将连贯度高的词语在该语境下判断词义。4.根据权利要求1所述的字幕敏感信息自动屏蔽转译方法,其特征在于,所述基于所述词义和语义通过预设敏感词语识别算法对字幕中词语和语句进行敏感度判断,确定敏感信息包括:基于所述词义通过预设敏感语义识别算法对字幕中词语进行敏感度判断,确定敏感词语;基于所述句义通过预设敏感语义识别算法对字幕中语句进行敏感度判断,确定敏感语...

【专利技术属性】
技术研发人员:杨雨薇
申请(专利权)人:广州欢网科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1