【技术实现步骤摘要】
本专利技术涉及中文自然语言处理
,特别涉及一种从工单中提取新词的方法和装置。
技术介绍
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键,而分词处理又是词语提取的关键。目前,中文分词工具主要可分为基于词典的分词、基于标注文章的分词(ConditionalRandomField,CRF)和基于词频统计的分词三种技术方案。其中,基于词典的分词方式:主要是通过人工整理词语列表作为词典,只有词典中的词才能被识别。该方案的优点是原理和技术实现都很简单;缺点是完全依靠人工识别整理词语,词语数量有限,如果想达到满意的效果,需要耗费大量人工成本进行词语收集,此外不同专业领域所涉及的专业名词,很难收录进来,并且对一些特殊情况无法处理。基于标注文章的分词方式:是目前比较流行的分词方式,通过人工对文章进行分词标注形成语料库,通过对语料库中的语料进行机器学习生产分词模型,依据分词模型对工单进行分词。该方案的语料库作为一个通用标注,具有通用性,可以针对新的语料进行学习,不断地丰富词库,具有分词效果稳定、错词少的优点;但由于该方案只是基于词典分词的改进,依然无法摆脱前期需要进行人工识别的问题,并且基于标注文件的分词方法还是一种人工监督的技术方案,需要占用大量的人力成本。基于词频统计的分词方式:是基于文章中词语出现次数和位置关系的一种分词方式,通过比较相邻词两个词语的词频,获得分词词语。该技术方案是一种完全无监督的分词方法,可以识 ...
【技术保护点】
一种从工单中提取新词的方法,其特征在于,所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。
【技术特征摘要】
1.一种从工单中提取新词的方法,其特征在于,所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,包括:根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语按照预定合并规则进行判断并处理,其中所述预定合并规则包括第一合并规则、第二合并规则和第三合并规则;当所述每三个相邻分词词语对应的两个候选词语符合第一合并规则时,对所述三个相邻分词按照第一合并规则处理,不对所述三个相邻分词词语按照第二合并规则和/或第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则时,则判断是否符合第二合并规则,当符合第二合并规则时,对所述三个相邻分词按照第二合并规则处理,不对所述三个相邻分词词语按照第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则同时也不符合第二合并规则时,则判断是否符合第三合并规则,当符合第三合并规则时,对所述三个相邻分词按照第三合并规则处理。3.根据权利要求2所述的方法,其特征在于,所述第一合并规则为:若两个候选词语的词频均大于设定的词频阈值,且所述两个候选词语的词频差值的绝对值小于所述两个候选词语中任一个候选词语的词频与预定因子的乘积,则设置前一词语位和中间词语位为空,并用所述两个候选词语的合并词语更新后一词语位的词语,其中预定因子大于
\t0且小于1;所述第二合并规则为:若前一候选词语的词频大于后一候选词语的词频,则用前一词语位存储的分词词语与中间词语位存储的分词词语的合并词语更新前一词语位的词语,并设置中间词语位为空,不更新后一词语位的词语;所述第三合并规则为:若前一候选词语的词频小于后一候选词语的词频,则用中间词语位存储的分词词语和后一词语位存储的分词词语的合并词语更新后一词语位的词语,并设置中间词语位为空,不更新前一词语位的词语;其中,前一词语位、中间词语位和后一词语位分别用于存储所述两个候选词语二元合并前的三个相邻分词词语。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:设置用于存储分词词语的词语位,每个词语位相应存储一个分词词语;首先对第一词语位、第二词语位和第三词语位存储的三个相邻分词词语对应的两个候选词语按照所述预定合并规则判断并处理;接着对按照所述预定合并规则判断并处理后的第二词语位、第三词语位以及未经判断并处理的第四词语位存储的词语按照所述预定合并规则判断并处理,直至完成所述分词结果中最后三个相邻词语位的词语的判断及处理。5.根据权利要求1所述的方法,其特征在于,所述获取根据项目的历史工单生成的词频库包括:提取项目中的历史工单;将所述历史工单中的符号、英文、数字以及停用字替换为空格,作为分词处理的自然分隔符;分别使用二元切分、三元切分和四元切分对所述历史工单的语句进行切分,并统计每种切分粒度下词语的词频,获得...
【专利技术属性】
技术研发人员:李国洋,王庆磊,梁德兴,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。