构建藏语问答语料库的方法及装置制造方法及图纸

技术编号:22914098 阅读:25 留言:0更新日期:2019-12-24 21:52
本发明专利技术提供了一种构建藏语问答语料库的方法及装置,属于大数据处理领域,本发明专利技术提供的方法包括:选择一个藏语三元组实体作为中心词实体,获取与中心词实体相关的所有三元组;将所有三元组中所有实体,映射成实体与标签的对应关系,根据对应关系与中心词实体,构建藏语问答语料库。本方案通过找到与藏语三元组实体相关的所有三元组,并映射成实体与标签的对应关系,构建出藏语问答语料库,克服了人工参与耗时、费力的缺陷。

【技术实现步骤摘要】
构建藏语问答语料库的方法及装置
本专利技术涉及大数据处理
,尤其涉及一种构建藏语问答语料库的方法及设备。
技术介绍
问答系统是近年来自然语言处理领域一个非常重要的研究热点,它允许用户以自然语言的方式进行提问,然后返回给用户一个相对准确地、满意地答案。相比中英文丰富的问答系统,藏语问答预料数据特别少,类型单一,且汉藏、英藏翻译技术的不足,很难将中英问答语料库直接应用到藏语问答语料库中,因此,目前没有构建大规模的藏语问答语料库的方法。
技术实现思路
本专利技术实施例提出了一种构建藏语问答语料库的方法及设备,旨在利用已有三元组实体提供构建藏语问答语料库的方案,并对构建的藏语问答语料库中的自然问句进行优化,根据藏语知识库以及优化的自然问句,实现藏语问答语料库的扩充。第一方面,本专利技术实施例提供了一种构建藏语问答语料库的方法,所述方法包括:将一个三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;将所述所有三元组中所有实体,映射成实体与标签的对应关系;根据所述对应关系与所述中心词实体,构建藏语问答语料库。另一方面,本专利技术实施例提供了一种构建藏语问答语料库的装置,所述装置包括:构建藏语问答语料库模块和优化藏语问答语料库模块;所述构建藏语问答语料库模块,选择一个三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;将所述所有三元组中所有实体,映射成实体与标签的对应关系,根据所述对应关系与所述中心词实体,构建藏语问答语料库;所述优化藏语问答语料库模块,计算所述模板问句的向量和所述真实问句的向量;根据所述模板问句的向量利用神经网络得到所述模板问句的概率分布;根据所述真实问句的向量和所述模板问句的概率分布,检测所述模板问句是否有效。有益效果如下:本专利技术主要利用已有藏语知识库中实体-关系-实体三元组,构建出藏语问答语料库,进而生成自然问句。另外,通过对抗神经网络进行修正和优化问答预料库中的自然问句语法和语义结构,然后结合知识库和自然问句,训练端到端神经网络模型,实现藏语问答语料库的自动扩充。附图说明下面将参照附图描述本专利技术的具体实施例,其中:图1示出了本专利技术实施例一中构建藏语问答语料库的方法流程示意图;图2示出了本专利技术实施例二中构建藏语问答语料库的逻辑示意图;图3示出了本专利技术实施例二中对构建的构建藏语问答语料库进行优化的逻辑示意图;图4示出了本专利技术实施例二中对构建的构建藏语问答语料库进行优化的方法流程图;图5示出了本专利技术实施例三中对藏语问答语料库进行扩充的逻辑示意图。具体实施方式为了使本专利技术的技术方案及优点更加清楚明白,以下结合附图对本专利技术的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。专利技术人在专利技术过程中注意到:目前没有利用深度学习模型训练得到藏语语料库的方案,构建藏语问答语料库,有助于有效提高问答效率。实施例一图1示出了本专利技术实施例中构建藏语问答语料库的方法流程图,所述方法包括:步骤101、将一个藏语三元组实体作为中心词实体,获取与中心词实体相关的所有三元组;步骤102、将所有三元组中所有实体,映射成实体与标签的对应关系;步骤103、根据对应关系与中心词实体,构建藏语问答语料库。其中,步骤101中,可以随机选择一个藏语三元组实体作为中心词实体,如图2所示,选择的三元组实体为<父亲,>其中,步骤102中的标签包括浅层标签和深层标签,浅层标签与三元组属性不相关,一般是人物,地点,组织机构等,深层标签与三元组属性相关,例如<死亡时间,1895>三元组,可以判断实体:不仅仅代表人物,同时也代表死亡人物。步骤103具体包括:根据对应关系与中心词实体,构建中心图,中心图包含节点和边;根据中心图和中心词实体,进行图查询,构建藏语问答语料库。其中,中心图中的节点包括中心词节点和关联节点,边表示两个实体之间的关系,实际应用中,中心词节点可以用双矩形表示,关联节点可以用单矩形表示;具体的,根据对应关系与中心词实体,构建中心图,具体包括:选取中心三元组的第一个实体作为中心词,用双矩形表示;将实体-映射表中的实体依次添加到中心图中,用单矩形表示;根据选择的三元组建立实体之间的关系,用箭头表示。实际应用中,构建的藏语问答语料库中包含自然语句,自然语句的对应一般规则为人物->地点->时间->一般的问句对应规则为:人物->地点->时间->等。如图2所示,选定中心词标签是人物,对应问句中通过中心图可知,中心词的死亡原因:中心词的死亡时间:1895,因此生成问题模板:本专利技术提供的方法,通过找到与藏语三元组实体相关的所有三元组,并映射成实体与标签的对应关系,构建出藏语问答语料库,克服了人工参与耗时、费力的缺陷。实施例二本专利技术实施例二在上述实施例中构建藏语问答语料库的基础上,增加了对构建的藏语问答语料库中自然语句进行优化的方案。图3示出了本专利技术实施例中优化藏语问答语料库中自然语句的逻辑示意图,藏语问答语料库中的自然语句包括模板问句和真实问句,具体的优化步骤如图4所示如下:步骤201、计算藏语问答语料库中的模板问句的向量和藏语问答语料库中的真实问句的向量;具体的,通过word2vec工具,将每个单词的向量纬度相加,得到句子向量表达。模板问句的向量表达记为Z,真实问句的向量表达记为X。步骤202、根据模板问句的向量利用神经网络得到模板问句的概率分布;具体的,图3中G表示生成模型的神经网络。输入为模板问句的向量Z,输出关于模板问句的概率分布G(Z)。步骤203、根据真实问句的向量和所述模板问句的概率分布,检测模板问句是否有效。具体的,图3中D表示判别模型的神经网络。输入真实问句的向量X和由生成模型输出的概率分布G(Z),输出为常量Y。一般在Y值设置为0.5,即认为模板问句有效。本专利技术实施例采用对抗神经网络对构建的藏语问答语料库中的自然语句进行优化,通过对比藏语真实问句,不断调整模板生成自然问句的语义和语法结构,使其更加自然、准确,减少了人工干预。实施例三本专利技术实施例二在上述实施例二优化构建藏语问答语料库的基础上,增加了扩充藏语问答语料库的方案,训练出端到端的神经网络。如图5所示,具体方案包括:构建预料:根据实施例一构建的藏语问答语料库和实施例二构建的有效的模板问句,构建四元组,其中,四元组的顺序为主体、关系、客体和问题;编码阶段:利用TransE算法得到藏语问答语料库中实体和关系的向量表达,得到主体向量表达、关系向量表达和客体向量表达,根据主体向量表达、关系向量表达和本文档来自技高网...

【技术保护点】
1.一种构建藏语问答语料库的方法,其特征在于,所述方法包括:/n将一个藏语三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;/n将所述所有三元组中所有实体,映射成实体与标签的对应关系;/n根据所述对应关系与所述中心词实体,构建藏语问答语料库。/n

【技术特征摘要】
1.一种构建藏语问答语料库的方法,其特征在于,所述方法包括:
将一个藏语三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;
将所述所有三元组中所有实体,映射成实体与标签的对应关系;
根据所述对应关系与所述中心词实体,构建藏语问答语料库。


2.如权利要求1所述的方法,其特征在于,所述根据所述对应关系与所述中心词实体,构建藏语问答语料库,具体包括:
根据所述对应关系与所述中心词实体,构建中心图,所述中心图包含节点和边;
根据所述中心图和所述中心词实体,进行图查询,构建藏语问答语料库。


3.如权利要求1所述的方法,其特征在于,所述标签包括浅层标签和深层标签,所述浅层标签与三元组属性不相关,所述深层标签与三元组属性相关。


4.如权利要求2所述的方法,其特征在于,所述中心图中的节点包括中心词节点和关联节点,所述边表示两个实体之间的关系。


5.如权利要求1所述的方法,其特征在于,所述藏语问答语料库中包含自然语句,所述自然语句的对应规则为人物->地点->时间->


6.如权利要求5所述的方法,其特征在于,所述自然语句包括模板问句和真实问句,所述方法还包括:
计算所述模板问句的向量和所述真实问句的向量;
根据所述模板问句的向量利用神经网络得到所述模板问句的概率分布;
根据所述真实问句的向量和所述模板问句的概率分布,检测所述模板问句是否有效。


7.如权利要求6所述的方法,其特征在于,检测到所述模板问句有效后,所述方法还包括:
根据所述藏语问答语料库和所述有效的模板问句,构建四元组,所述四元组的顺序为主体、关系、客体和问题;
利用TransE算法得到所述...

【专利技术属性】
技术研发人员:孙媛夏天赐
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1