一种蒙古语数字化知识库系统构建方法技术方案

技术编号:3847270 阅读:511 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种蒙古语数字化知识库系统构建方法,包括的步骤:获取蒙古语词根/词干及描述词根/词干的相关知识属性信息,生成词根/词干知识处理字段单元;获取蒙古语词根/词干不同形式的构件构成构件数据库;建立定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则的规则体系;生成用于限定蒙古语的词语组合关系的属性字段单元;生成进行蒙古语实时统计的统计工具单元。本发明专利技术构建的蒙古语数字化知识库系统,通过公知的蒙古语键盘输入方式和蒙古语OCR识别输入方式动态地获取蒙古语信息,并将其时实地转化为蒙古语丰富的知识,为蒙古语的数字化应用、数字化教学、数字化学习、数字化研究、数字化开发提供技术支撑。

【技术实现步骤摘要】

本专利技术涉及 一种自然语言文字数字化知识处理方法,特别涉及一 种由计算机控制的用于蒙古语言文字数字化应用、数字化教学、数字 化学习、数字化研究、数字化开发的蒙古语数字化知识库系统构建方 法。
技术介绍
蒙古语是黏着语。由于蒙古语的语言学自然属性和特点,在话语 链中每个词则是根据其表达时态、形态、方式、风格、目的等众多复 杂内容的不同,经常处于不停顿的动态变化当中,特别是动词, 一个 动词通过各种词缀/附加成分可衍生为上千个不同的动态变化形,人 们在蒙古语词典中看到的仅仅是它的静态解释形(相当于日语的终止 形),蒙古语动态表达形是个难于穷尽的变化体。汉语没有这样的动 态变化,英语等西方语言文字即使有一些,但简单,没有蒙古语的复 杂多变。比较类似的是曰语,但日语的词语动态变化易于穷尽,蒙古 语词语的动态变化不易穷尽。在这一点上蒙古语在世界现有的自然语 言文字中当属特例。对于蒙古语词语这一丰富多端的动态变化体,迄 今为止国内外任何语言学家也没有做过穷尽生成与统计,原因是没有 一个科学可行的方法和手段。目前釆用的蒙古语数字计算机键盘输入/输出技术由于没有蒙古 语数字化知识库系统做支撑,导致人的语言文字输入错误无法予以控 制,蒙古语的语音信息、词法信息、词汇信息、句法信息、语用信息 无法按蒙古语言文字固有的自然结构在其输入/输出过程中予以保 留,并时实地转化为蒙古语的语音知识、词法知识、词汇知识、句法 知识、语用知识,以便使输入形成的蒙古语大量电子文档不用经过反复的、多次的、复杂的加工就可直接复用。蒙古语词汇跟其他自然语言文字的词汇一样,整体上是个由N个单词N个复合词(广义复合词,即非单词)的集合构成的海量知识体系。同时又是一个不断变化发展的动态知识体系。随着历史的演进, 一些词不用或不常用了,同时又不断产生新的词。迄今为止,人们一 直用"纸制词典,,这一古老的词汇记录工具来描述这一动态的海量知 识体系,结果因其原始和落后,只能记录和传播词汇的过去时,不能记录和传播词汇的现在进行时(即与知识爆炸一起时实地记录每时 每刻不断产生的新词新知识)。只能静态地封闭地记录和传播词汇, 不能动态地开放地记录和传播词汇。只能通过有限的介质记录和传播 词汇,不能通过海量介质记录和传播词汇。只有出版后才能为人提供 服务,不能并时为人提供服务。只能由一小部分专家编纂,不能由各 行业大部分专家甚至全民参与词汇集成和编纂。
技术实现思路
本专利技术的目的是提供,该 蒙古语数字化知识库系统动态地开放地记录和传播蒙古语词汇,通过 公知的蒙古语键盘输入方式和蒙古语OCR识别输入方式动态地获取 蒙古语信息,生成出来的词语不可能出现字母组合错误,从而省去了 在一组蒙古语拼音字符之间进行的繁重复杂的人工校对;本专利技术达到 了对蒙古语进行数字化应用、数字化教学、数字化学习、数字化研究、 数字化开发,以便极大地发挥数字计算机作为人类知识处理工具的强 大功能。为实现上述目的,本专利技术釆用如下技术方案 ,该方法包括以下步骤 Sl,获取蒙古语词根/词干及描述词根/词干的相关知识属性信息, 生成词根/词干知识处理字段单元;S2,获取蒙古语词根/词干不同形式的构件构成构件数据库;S3,建立定义词根/词干可组合的构件、以及构件之间进行自由 组合和各构件之间封装嵌套规则的规则体系。优选地,步骤S3之后还包括S4,生成由蒙古语短语知识描述字段、句法知识描述字段、施事 /受事知识描述字段组成的属性字段单元,用于限定蒙古语的词语组 合关系。优选地,所述构件数据库包括词缀数据库、黏着复合词缀库、非 黏着复合词缀库,步骤S2包括子步骤集成蒙古语的词缀构成词缀库,用于为相应的词干提供黏着附加 计算对象以生成所需的词语;集成黏着附加词缀构成黏着复合词缀库,用于为相应的词干提供 黏着附加计算对象以生成所需黏着附加词语;集成非黏着复合词缀构成非黏着复合词缀库,用于为相应的复合 词根提供非黏着附加计算对象以生成所需非黏着复合词语。优选地,所述构件数据库还包括专业术语库、多变体附属成分库 和自定义数据库,步骤S2还包括子步骤将蒙古语数学、物理学、化学、医学、生物学、计算机技术科学 各类不同专业术语集成到专业术语库;将蒙古语多变体附属成分集成到多变体附属成分库,用于为多变 体附属成分的知识处理提供数据和规则;生成由使用者填充的自定义库,用于为使用者个性化词语的存储 和生成提供工具。优选地,所述词缀数据库、黏着复合词缀库、非黏着复合词缀库、 多变体附属成分库、自定义库根据需要不断扩充。优选地,所述规则体系中每组规则由BDQ规则描述语言进行描 述,BDQ规则描述语言由数字计算机键盘符号构成英文大写输入 码表示可作为中缀的构件数据库取值类型,英文小写输入码表示可作为尾缀的构件数据库取值类型;o至9的数字表示可作为动词尾缀的 构件数据库类型集合;斜杠表示或者关系;圆括号表示嵌入构件数据 库的嵌套关系;下划线表示词类;#号表示一组路线组合规则描述结 東,另一组路线组合规则描述开始。优选地,规则体系中的每组规则允许词干组合多个不同类型构件 数据库中的构件,以多叉树结构生成。优选地,该方法还包括步骤S5,生成以蒙古语各类语言元素以及组合形式为统计单位,用于 进行蒙古语实时统计的系列统计工具单元。本专利技术还提供了 一种蒙古语数字化知识库系统,该系统包括知识处理字段单元,用于为数字计算机给出蒙古语的词根/词干,并描述蒙古语词根/词干的相关知识属性信息;构件数据库,集有蒙古语词根/词干不同形式的构件; 规则体系,用于定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则;属性字段单元,由蒙古语短语知识描述字段、句法知识描述字段、施事/受事知识描述字段组成的属性字段单元组成,用于限定蒙古语的词语组合关系。优选地,该系统还包括系列统计工具单元,用于以蒙古语各类语言元素以及组合形式为 统计单位,进行蒙古语的实时统计。利用本专利技术提供的蒙古语数字化知识库系统构建方法具有以下 技术效果1) 控制人的输入错误,保证输出的词语没有字母组合错误、词 法结构错误,毋须人工校对;2) 保留蒙古语固有的自然语音信息与结构、并时实地将其转化 为蒙古语丰富的语音学知识,使之可计算可复用;3) 保留蒙古语固有的自然词法结构、并时实地将其转化为蒙古 语丰富的词法学知识,使之可计算可复用;4) 保留蒙古语固有的词汇复杂信息、并时实地将其转化为蒙古语丰富的词汇学知识,使之可计算可复用;5) 保留蒙古语固有的词语组合信息,词组关系知识,使之可计 算可复用;6) 支持蒙古语海量词汇的无纸应用、无纸学习、无纸教学、无 纸研究、无纸开发,以达到对蒙古语进行数字化应用、数字化教学、 数字化学习、数字化研究、数字化开发,极大地发挥数字计算机作为 人类知识处理工具的强大功能。附图说明图l为本专利技术蒙古语数字化知识库系统构建方法流程图2为本专利技术蒙古语词语输入方法流程图3为本专利技术实施例中蒙古语词语输入方法流程图。具体实施例方式本专利技术提出的蒙古语数字化知识库系统构建方法,结合附图和实 施例说明如下。本专利技术所提供的蒙古语数字化知识库系统构建方法所构建的蒙 古语数字化知识库系统包括 一个蒙古语的词根/词干知识描述单元、 一个与此连接的蒙古语的构件本文档来自技高网
...

【技术保护点】
一种蒙古语数字化知识库系统构建方法,其特征在于,该方法包括以下步骤: S1,获取蒙古语词根/词干及描述词根/词干的相关知识属性信息,生成词根/词干知识处理字段单元; S2,获取蒙古语词根/词干不同形式的构件构成构件数据库;   S3,建立定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则的规则体系。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏雅拉图白双成巴图赛恒六月
申请(专利权)人:内蒙古蒙科立软件有限责任公司
类型:发明
国别省市:15[中国|内蒙]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1