A Gloss-based similarity calculation method for sign language video belongs to the field of natural language processing. First, the sign language corpus is transcribed by ELAN software, then the pretreatment of the sign language corpus is carried out, including exporting the transcribed information into text and eliminating the noise of the corpus. Finally, the similarity between sign language video A and sign language video B is calculated by using cosine similarity algorithm based on VSM. The invention has the advantages of simple operation, easy realization and remarkable effect.
【技术实现步骤摘要】
一种基于Gloss的手语视频相似度计算方法
:本专利技术是一种基于Gloss的手语视频相似度计算方法,属于自然语言处理领域。
技术介绍
:手语是一种视觉语言,它是通过手的动作、面部表情的变化和身体的运动进行交流的语言,没有书面形式,更多的是通过视频录制的方式进行记录。视频的相似度研究为手语语料相似度研究提供了参考。国内外在研究视频相似度问题时,一部分是提取视频的文本信息,Crawler系统可以从视频的URL和主页HTML文件中提取视频的文本信息,比如字幕、视频的题目、摘要、类别、主题,以及相关的人物信息等。还有视频经过文字检测、文字分割、字符识别,使用OCR软件识别,完成由数字图像到字符编码的转化,最终可以将视频相似度转化为文本相似度的计算。另一部分,是将视频作为图像进行处理,即关键帧之间的相似度计算,转化成图像的相似度计算。以两个视频间对应帧的平均距离作为相似度,条件是视频帧序列遵守时间顺序。采用常见的颜色直方图进行计算比较,但不是直接将两幅图像的直方图进行比较,而是先将视频的关键帧进行区域划分。而本专利技术用到的手语汉语平行语料库中Gloss层(手语转写),是借用汉字和其他字符按照手语顺序记录手语表达的内容和方式,没有翻译加工,写出的是原始的手语句子,并非翻译的汉语句子。转写层(词语级别,不涉及语法信息)是对手语视频内容的转写,可以将手语视频转化为文本来处理。本专利技术和上述提到的视频的文本信息是不同的,一般视频的文本信息是非常有限的,而且视频语义方面的文本信息很少,所以在视频相似度处理方面是不利的。而本专利技术用到的语料库的词语转写层,是对整段手语视 ...
【技术保护点】
1.一种基于Gloss的手语视频相似度计算方法,其特征在于,包括以下步骤:步骤1:使用ElAN软件对手语语料进行转写;步骤2‑1:将手语转写层语料导出成文本;步骤2‑2:对手语转写文本语料进行噪声消除,分词及去除相应的停用词;步骤3‑1:对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举;步骤3‑2:计算手语视频A和手语视频B各自的词频;步骤3‑3:确定手语视频A和手语视频B各自的词频向量A=(a1,a2,…,an)和B=(b1,b2,…,bn);步骤3‑4:利用公式(1)计算手语视频A和手语视频B两个词频向量对应的夹角,夹角越大,相似度越小;夹角越小,相似性越大;最终来确定手语视频A和手语视频B的相似度;
【技术特征摘要】
1.一种基于Gloss的手语视频相似度计算方法,其特征在于,包括以下步骤:步骤1:使用ElAN软件对手语语料进行转写;步骤2-1:将手语转写层语料导出成文本;步骤2-2:对手语转写文本语料进行噪声消除,分词及去除相应的停用词;步骤3-1:对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举;步骤3-2:计算手语视频A和手语视频B各自的词频;步骤3-3:确定手语视频A和手语视频...
【专利技术属性】
技术研发人员:李晗静,吴蕊珠,吕会华,
申请(专利权)人:北京联合大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。