【技术实现步骤摘要】
一种标签字典生成系统及方法
本专利技术涉及数据处理
,具体为一种标签字典生成系统及方法。
技术介绍
大数据技术能够对不同类型的数据进行处理,并能够处理比较大的数据量,利用大数据技术可以将信息中潜藏的价值挖掘出来,随着社会和科学技术的发展,大数据技术被渗透到社会的方方面面,所能应用的方向也越来越广,发挥好大数据的应用效果,关键在于引入标签化体系建设,其中标签库的完整与否、是否和实践活动密切关联,是当前大数据与行业相融合的重要环节,只有用更加完整的标准化标签库,才能对大数据的所有内容进行标注化描述,使得计算机系统对信息进行更加智能、全面识别,从而更好地发挥大数据的应用效果;标签是对某一特定事物进行标准化描述的一种方法,由于各种特定事物所需描述的内容项具有不确定性、繁多复杂等特性,导致在标签使用的过程中,无法及时地找到对应的标签项,一定程度上影响了标签字典的使用效果,不利于标签字典最大限度地发挥其效用,近年来,用标签描述不同的对象以提取相关信息在相关部门中的应用越来越广泛,但在标签被引用过程中存在一个固有弊端:会出现某一特定的标签字典内容项繁多,无法穷尽枚举的情况,当该字典内容不完整状态下,引用时会有无法精准对应项的可能性,影响了字典的使用效果,降低了相关人员工作效率,需要通过日积月累不断完善标签字典:在使用者在标签字典库中找不到已有标签标注所表达的事件时,自主添加新增分词、生成临时标签,在生成后自动推送新增分词和筛选出的合适的已有分词给管理员进行审核,在筛选已有分词过程中,匹配临时标签和标签字典库中已有标签 ...
【技术保护点】
1.一种标签字典生成系统,其特征在于:所述系统包括:用户终端、标签字典库、暂存标签添加模块、暂存标签审核模块、匹配结果重复处理模块和暂存标签处理模块;/n标签使用者在所述用户终端输入所表达的事件,查看所述标签字典库是否已经有标签可以用于标注标签使用者表达的事件:若可以找到对应用于标注使用者输入事件的标签,使用者直接引用对应标签,在单次引用后,系统自动记录在所述标签字典库中的对应标签,将其存入系统数据库中完成输入事件的标注;若无法找到对应用于标注使用者输入事件的标签,由使用者通过所述暂存标签添加模块自主添加新增分词,由后台自动生成新增分词的临时标签,临时标签生成后存入所述标签字典库中,供其他使用者引用,在添加新增分词后,系统自动推送临时标签至所述暂存标签审核模块中,提醒系统管理员对临时标签进行审核,系统管理员人工判断临时标签与所述标签字典库中的已有标签有无相似可替代性:若临时标签无可替代,将新增的临时标签划为正式标签存入所述标签字典库中;若有可替代临时标签的标签,由系统管理员通过所述暂存标签处理模块进行标签合并,并确认以已有标签或新增的临时标签中的一个标签为主、作为主标签存入所述标签字典 ...
【技术特征摘要】
1.一种标签字典生成系统,其特征在于:所述系统包括:用户终端、标签字典库、暂存标签添加模块、暂存标签审核模块、匹配结果重复处理模块和暂存标签处理模块;
标签使用者在所述用户终端输入所表达的事件,查看所述标签字典库是否已经有标签可以用于标注标签使用者表达的事件:若可以找到对应用于标注使用者输入事件的标签,使用者直接引用对应标签,在单次引用后,系统自动记录在所述标签字典库中的对应标签,将其存入系统数据库中完成输入事件的标注;若无法找到对应用于标注使用者输入事件的标签,由使用者通过所述暂存标签添加模块自主添加新增分词,由后台自动生成新增分词的临时标签,临时标签生成后存入所述标签字典库中,供其他使用者引用,在添加新增分词后,系统自动推送临时标签至所述暂存标签审核模块中,提醒系统管理员对临时标签进行审核,系统管理员人工判断临时标签与所述标签字典库中的已有标签有无相似可替代性:若临时标签无可替代,将新增的临时标签划为正式标签存入所述标签字典库中;若有可替代临时标签的标签,由系统管理员通过所述暂存标签处理模块进行标签合并,并确认以已有标签或新增的临时标签中的一个标签为主、作为主标签存入所述标签字典库中;
在判断新增的临时标签有无相似可替代性时,由系统筛选出合适的已有标签供系统管理员作最后判断,筛选的过程为:通过所述暂存标签审核模块统计临时标签的字数,对临时标签进行等级划分:分为基础标签和属性标签,将统计的字数和划分结果传输到所述匹配结果重复处理模块中,通过所述匹配结果重复处理模块先进行基础标签的匹配:将所述标签字典库中已有标签和基础标签进行匹配:查找已有标签中是否有与基础标签相似或相同的内容,若与基础标签相似的标签有多个,在匹配的内容上添加属性标签,将标签分词进行词义切分后再进行二次匹配,将匹配结果传输到所述暂存标签处理模块中,通过所述暂存标签处理模块将匹配的标签发送给系统管理员作最终判断。
2.根据权利要求1所述的一种标签字典生成系统,其特征在于:所述暂存标签添加模块包括标签暂存单元和标签分词提取单元,在所述标签字典库中找不到可以用于标注使用者输入事件的标签时,标签使用者自主添加新增分词至所述标签字典库中,通过所述标签暂存单元将添加的新标签以临时标签形式暂存,由后台自动生成新增分词的临时标签,临时标签生成后存入所述标签字典库中,供其他使用者引用,在添加新增分词后,系统自动推送临时标签至所述暂存标签审核模块中,提醒系统管理员对临时标签进行审核;标签使用者在所述标签字典库中找到可以用于标注使用者输入事件的标签时,通过所述标签分词提取单元将对应标签提取至所述用户终端供使用者引用,在单次引用后,系统自动记录在所述标签字典库中的对应标签,将其存入系统数据库中完成输入事件的标注。
3.根据权利要求1所述的一种标签字典生成系统,其特征在于:所述暂存标签审核模块包括标签审核提醒单元、临时标签审核单元、标签字数统计单元和标签等级划分单元,在添加新增分词、生成临时标签后,利用所述标签审核提醒单元提醒系统管理员通过所述临时标签审核单元对临时标签进行审核,通过所述标签字数统计单元统计所有标签的字数,将统计结果传输到所述匹配结果重复处理模块中,通过所述标签等级划分单元将临时标签划分为基础标签和属性标签,存在多个属性标签时,依据属性标签在所述标签字典库中的权重进行等级划分。
4.根据权利要求1所述的一种标签字典生成系统,其特征在于:所述匹配结果重复处理模块包括基础标签匹配单元、标签分词切分单元和标签匹配单元,在筛选合适标签过程中,先通过所述基础标签匹配单元将暂存的基础标签和已有标签进行匹配:若存在多个和暂存的基础标签相似的已有标签,添加属性标签后,通过所述标签分词切分单元对临时标签进行词义切分,属性标签按照等级从大到小顺序添加,将切分结果传输到所述标签匹配单元中,所述标签匹配单元将已有标签与切分后的临时标签进行二次匹配,将最终的匹配结果传输到所述暂存标签处理模块中,通过所述暂存标签处理模块将匹配的标签发送给系统管理员判断有无相似可替代性。
5.根据权利要求1所述的一种标签字典生成系统,其特征在于:所述暂存标签处理模块包括正式标签划分单元、相似标签合并单元和最佳标签选定单元,若临时标签无可替代,通过所述正...
【专利技术属性】
技术研发人员:杨云波,
申请(专利权)人:珠海沃德尔软件科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。