当前位置: 首页 > 专利查询>鲁东大学专利>正文

一种非通用语智慧教育的多模态语言数据处理方法技术

技术编号:38104945 阅读:13 留言:0更新日期:2023-07-06 09:26
本发明专利技术提供的一种非通用语智慧教育的多模态语言数据处理方法,其步骤包括:首先通过各类大学公开的语料、TED、维基百科以及Opensubtitles网页公开的非通用语言数据信息,获取非通用语言的语料信息,并进行多模态数据处理,所述多模态数据处理包括非通用语言的语音处理、中文翻译处理、句对成处理、近义词处理和形近词处理;其次使用键值对以形成反向索引,在生成反向索引时,生成索引属性和属性相关文件的映射,并将其保存为纯文本文件;然后按固定间隔保存所述纯文本文件、中文等值对比行,并生成相应的索引文件;将索引文件添加到web缓存中;本发明专利技术使得非通用语言的学习在具备准确的释义基础上能够多角度理解,从而满足人们对非通用语言的有效学习。足人们对非通用语言的有效学习。足人们对非通用语言的有效学习。

【技术实现步骤摘要】
一种非通用语智慧教育的多模态语言数据处理方法


[0001]本专利技术涉及非通用语数据处理
,尤其涉及一种非通用语智慧教育的多模态语言数据处理方法。

技术介绍

[0002]随着非通用语学习和使用的需求大大增加,整体非通用语学习人数不断增多,线上非通用语学习不断发展的大背景下,非通用语学习市场蓬勃发展。同时,根据市场调研分析市面上产品提供的服务主要还是一些比较简单的基础非通用语教学,还处于一个比较浅薄的层次,而能精准狙击用户的使用痛点,并且深耕非通用语学习以及翻译领域,提供专业化服务的学习终端基本没有。除此之外,市面上的非通用语词典大多存在着释义不全、无发音音频、双语例句不足的现状。
[0003]因此,亟需一种非通用语智慧教育的多模态语言数据处理方法,满足人们对非通用语言的有效学习。

技术实现思路

[0004]本专利技术的目的是提供一种非通用语智慧教育的多模态语言数据处理方法,旨在解决非通用语言无有效学习的途径的技术问题。
[0005]为实现上述目的,第一方面,本专利技术提供一种非通用语智慧教育的多模态语言数据处理方法,其步骤包括:
[0006]S1:通过各类大学公开的语料、TED(Technology Entertainment Design)、维基百科以及Opensubtitles网页公开的非通用语言数据信息,获取非通用语言的语料信息,并进行多模态数据处理,所述多模态数据处理包括非通用语言的语音处理、中文翻译处理、句对成处理、近义词处理和形近词处理;
[0007]S2:使用键值对以形成反向索引,在生成反向索引时,需生成索引属性和属性相关文件的映射,并将其保存为纯文本文件;然后按固定间隔保存所述纯文本文件、中文等值对比行,并生成相应的索引文件;将所述索引文件添加到web缓存中。
[0008]作为上述方案进一步的改进,在步骤S1中获取的非通用语言的语料信息进行多模态数据处理前,还需对所述语料信息进行筛选,去除重复或不合法或纯数字的语料信息,以获得干净的语料文件。
[0009]作为上述方案进一步的改进,在步骤S2中,使用HashMap构建反向索引。
[0010]作为上述方案进一步的改进,在步骤S2中,在使用键值对构建反向索引时,需要构建单词组索引、句对索引、音频索引、形态相似指数索引和语义相似索引。
[0011]作为上述方案进一步的改进,在构建单词组索引时,每个短语都有一个映射到它的索引文件。
[0012]作为上述方案进一步的改进,在构建句对索引时,句对语料库文件中的每一行内容注入id号,生成新的句对文件(ru_sen.txt文件),并生成一个词语与对应句子id映射的
索引文件(ru_wordsen.txt文件)。
[0013]作为上述方案进一步的改进,在构建音频索引时,将单词与语音库中的文件名进行匹配,获得相应的mp3文件路径并将其以固定格式写入txt文本,生成相应的语音文件;如果没有相应的语音文件,写null。
[0014]作为上述方案进一步的改进,对于音频文件播放时,将JavaScript的音频标签嵌套在JSP中,音频的src属性仅识别数字命名的mp3文件需要生成具有单词和数字对应关系的索引文件。
[0015]作为上述方案进一步的改进,在构建形态相似指数时:首先获取形态相似词,再使用Levenshtein距离算法进行识别,如果操作数为1,则判断它们是形态相似的单词。
[0016]作为上述方案进一步的改进,在构建语义相似索引时:首先获取语义相似的词,再使用Levenshtein距离算法进行识别,如果操作数为0,则判断它们是语义相似的词。
[0017]作为上述方案进一步的改进,在获取俄语初始句对预料文件时,通过OpenSubtitles电影台词网站,获取电影中的台词及翻译。
[0018]第二方面,本专利技术还提供一种学习终端,所述学习终端存储有计算机程序,所述计算机程序被处理器执行时实现上述一种非通用语智慧教育的多模态语言数据处理方法的步骤。
[0019]由于本专利技术采用了以上技术方案,使本申请具备的有益效果在于:
[0020]本专利技术提供的一种非通用语智慧教育的多模态语言数据处理方法,其步骤包括:首先通过各类大学公开的语料、TED、维基百科以及Opensubtitles网页公开的非通用语言数据信息,获取非通用语言的语料信息,并进行多模态数据处理,所述多模态数据处理包括非通用语言的语音处理、中文翻译处理、句对成处理、近义词处理和形近词处理;其次使用键值对以形成反向索引,在生成反向索引时,生成索引属性和属性相关文件的映射,并将其保存为纯文本文件;然后按固定间隔保存所述纯文本文件、中文等值对比行,并生成相应的索引文件;将所述索引文件添加到web缓存中;如此的设置,首先通过对获取的非通用语言的语料信息进行多模态数据处理,并生成对应的索引,从而使得非通用语言的学习首先具备准确的释义,其次能够多角度理解掌握,尤其是具备语音功能,更加有助于非通用语言的学习者快速掌握该非通用语言,满足人们对非通用语言的有效学习;
[0021]在数据处理上,本专利技术使用键值对以形成反向索引,如HashMap,可以提高数据处理的速度并且完美地容纳各种语料库,且避免大量的数据库之间的干预;另外将处理好的索引文件添加到web缓存中以供读取和显示相应的翻译、句子、音频文件保存路径,而无需数据库的参与,保持最快的响应速度。
附图说明
[0022]为了更清楚地说明本专利技术实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0023]图1为本专利技术公开的一种非通用语学习终端的主页面布局示意图;
[0024]图2为本专利技术公开的一种非通用语学习终端的检索结果显示布局1示意图;
[0025]图3为本专利技术公开的一种非通用语学习终端的检索结果显示布局2示意图。
[0026]本专利技术目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
[0027]下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本专利技术的一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。
[0028]需要说明,本专利技术实施方式中所有方向性指示(诸如上、下
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0029]本专利技术各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非通用语智慧教育的多模态语言数据处理方法,其特征在于,其步骤包括:S1:通过各类大学公开的语料、TED、维基百科以及Opensubtitles网页公开的非通用语言数据信息,获取非通用语言的语料信息,并进行多模态数据处理,所述多模态数据处理包括非通用语言的语音处理、中文翻译处理、句对成处理、近义词处理和形近词处理;S2:使用键值对以形成反向索引,在生成反向索引时,需生成索引属性和属性相关文件的映射,并将其保存为纯文本文件;然后按固定间隔保存所述纯文本文件、中文等值对比行,并生成相应的索引文件;将所述索引文件添加到web缓存中。2.根据权利要求1所述的一种非通用语智慧教育的多模态语言数据处理方法,其特征在于,在步骤S1中获取的非通用语言的语料信息进行多模态数据处理前,还需对所述语料信息进行筛选,去除重复或不合法或纯数字的语料信息,以获得干净的语料文件。3.根据权利要求1或2所述的一种非通用语智慧教育的多模态语言数据处理方法,其特征在于,在步骤S2中,使用HashMap构建反向索引。4.根据权利要求1或2所述的一种非通用语智慧教育的多模态语言数据处理方法,其特征在于,在步骤S2中,在使用键值对构建反向索引时,需要构建单词组索引、句对索引、音频索引、形态相似指数索引和语义相似索引。5.根据权利要求4所述的一种非通用语智慧教育的多模态语言数据处理方法,其特征在于,...

【专利技术属性】
技术研发人员:刘伍颖
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1