拆词方法及设备技术

技术编号:18497035 阅读:11 留言:0更新日期:2018-07-21 20:09
本发明专利技术的目的是提供一种拆词方法及设备,本发明专利技术通过字典树中的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的模版排列组合词,从而能快速准确地从字典树中提取到对应于所述商品描述信息的模版词的组合词。

Dismantling method and equipment

The aim of the present invention is to provide a method of dismantling and a device. The invention can store one word by each node in the dictionary tree, a single node in the dictionary tree to form a corresponding template arrangement combination, or a node other than 2 root nodes adjacent to the same branch in the same branch, from the upper to the lower node. The corresponding template arrangement and combination words are formed, and each combination word is matched with the template arrangement combination in the dictionary tree, and the matching words are obtained, which can quickly and accurately extract the combination word of the template corresponding to the description information of the description from the dictionary tree.

【技术实现步骤摘要】
拆词方法及设备
本专利技术涉及计算机领域,尤其涉及一种拆词方法及设备。
技术介绍
现有的拆词方案存在拆词速度慢,且拆词不够准确的问题。
技术实现思路
本专利技术的一个目的是提供一种拆词方法及设备,能够解决现有的拆词方案存在拆词速度慢,且拆词不够准确的问题。根据本专利技术的一个方面,提供了一种拆词方法,该方法包括:获取用户输入的词组;将所述词组拆分成单个词;得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。进一步的,上述方法中,所述字典树为双数组字典树。进一步的,上述方法中,将得到的各个排列组合词与字典树中的模版排列组合词匹配之前,还包括:获取记录有模版排列组合词的词库;将所述词库中的各个模版排列组合词按字典序存储入所述字典树的各对应分支中。进一步的,上述方法中,将所述词库中的各个模版排列组合词存储入所述字典树的各对应分支中,包括:若所述词库中有近似模版排列组合词,每一组近似模版排列组合词为组成的词相同但排序不同的一组模版排列组合词,从一组近似模版排列组合词中只选取一个模版排列组合词作为主排列组合词存储于所述字典树中,该组模版排列组合词中未选取的各个模版排列组合词作为各个副排列组合词;建立所述主排列组合词与副排列组合词的对应关系。进一步的,上述方法中,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,包括:根据所述主排列组合词与副排列组合词的对应关系,在得到的各个排列组合词中保留所述主排列组合词,并删除对应的副排列组合词,得到过滤后的主排列组合词;将各个过滤后的主排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的主排列组合词;根据所述主排列组合词与副排列组合词的对应关系,获取与所述字典树匹配一致的副排列组合词。进一步的,上述方法中,将各个过滤后的主排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的主排列组合词,包括:将所述主排列组合词中开头词相同的主排列组合词为一组,分别对每组主组合进行如下迭代:查找字典树中是否有以当前组的主排列组合词的开头词为开始的节点,若无,取下一组主排列组合词从新开始所述迭代;若有,以当前的开头词为开始的节点,在所述字典树中查找与该组主排列组合词匹配一致的主排列组合词,并加入结果集。进一步的,上述方法中,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词之后,还包括:设置每个模版排列组合词与搜索量评分的对应关系;根据所述对应关系,确定所述匹配一致的排列组合词的评分。进一步的,上述方法中,当所述模版排列组合词为违禁词时,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词之后,还包括:将所述匹配一致的排列组合词从所述用户输入的词组中删除。根据本专利技术的另一方面,还提供了一种拆词设备,该设备包括:获取装置,用于获取用户输入的词组;拆分装置,用于将所述词组拆分成单个词;组合装置,用于得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;匹配装置,用于将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。进一步的,上述设备中,所述字典树为双数组字典树。进一步的,上述设备中,字典树生成装置,用于获取记录有模版排列组合词的词库;将所述词库中的各个模版排列组合词按字典序存储入所述字典树的各对应分支中。进一步的,上述设备中,所述字典树生成装置,用于若所述词库中有近似模版排列组合词,每一组近似模版排列组合词为组成的词相同但排序不同的一组模版排列组合词,从一组近似模版排列组合词中只选取一个模版排列组合词作为主排列组合词存储于所述字典树中,该组模版排列组合词中未选取的各个模版排列组合词作为各个副排列组合词;建立所述主排列组合词与副排列组合词的对应关系。进一步的,上述设备中,所述匹配装置,用于根据所述主排列组合词与副排列组合词的对应关系,在得到的各个排列组合词中保留所述主排列组合词,并删除对应的副排列组合词,得到过滤后的主排列组合词;将各个过滤后的主排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的主排列组合词;根据所述主排列组合词与副排列组合词的对应关系,获取与所述字典树匹配一致的副排列组合词。进一步的,上述设备中,所述匹配装置,用于将所述主排列组合词中开头词相同的主排列组合词为一组,分别对每组主组合进行如下迭代:查找字典树中是否有以当前组的主排列组合词的开头词为开始的节点,若无,取下一组主排列组合词从新开始所述迭代;若有,以当前的开头词为开始的节点,在所述字典树中查找与该组主排列组合词匹配一致的主排列组合词,并加入结果集。进一步的,上述设备中,还包括评分装置,用于在获取匹配一致的排列组合词之后,设置每个模版排列组合词与搜索量评分的对应关系;根据所述对应关系,确定所述匹配一致的排列组合词的评分。进一步的,上述设备中,还包括删除装置,用于当所述模版排列组合词为违禁词时,在获取匹配一致的排列组合词之后,将所述匹配一致的排列组合词从所述用户输入的词组中删除。根据本申请的另一面,还提供一种基于计算的设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取用户输入的词组;将所述词组拆分成单个词;得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。根据本申请的另一面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:获取用户输入的词组;将所述词组拆分成单个词;得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。与现有技术相比,本专利技术通过字典树中的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,本文档来自技高网...

【技术保护点】
1.一种拆词方法,其中,该方法包括:获取用户输入的词组;将所述词组拆分成单个词;得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。

【技术特征摘要】
1.一种拆词方法,其中,该方法包括:获取用户输入的词组;将所述词组拆分成单个词;得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分支中的层级相邻的2个以上根节点以外的节点,依次由上层节点至下层节点组成对应的模版排列组合词。2.根据权利要求1所述的方法,其中,所述字典树为双数组字典树。3.根据权利要求1所述的方法,其中,将得到的各个排列组合词与字典树中的模版排列组合词匹配之前,还包括:获取记录有模版排列组合词的词库;将所述词库中的各个模版排列组合词按字典序存储入所述字典树的各对应分支中。4.根据权利要求3所述的方法,其中,将所述词库中的各个模版排列组合词存储入所述字典树的各对应分支中,包括:若所述词库中有近似模版排列组合词,每一组近似模版排列组合词为组成的词相同但排序不同的一组模版排列组合词,从一组近似模版排列组合词中只选取一个模版排列组合词作为主排列组合词存储于所述字典树中,该组模版排列组合词中未选取的各个模版排列组合词作为各个副排列组合词;建立所述主排列组合词与副排列组合词的对应关系。5.根据权利要求4所述的方法,其中,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,包括:根据所述主排列组合词与副排列组合词的对应关系,在得到的各个排列组合词中保留所述主排列组合词,并删除对应的副排列组合词,得到过滤后的主排列组合词;将各个过滤后的主排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的主排列组合词;根据所述主排列组合词与副排列组合词的对应关系,获取与所述字典树匹配一致的副排列组合词。6.根据权利要求5所述的方法,其中,将各个过滤后的主排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的主排列组合词,包括:将所述主排列组合词中开头词相同的主排列组合词为一组,分别对每组主组合进行如下迭代:查找字典树中是否有以当前组的主排列组合词的开头词为开始的节点,若无,取下一组主排列组合词从新开始所述迭代;若有,以当前的开头词为开始的节点,在所述字典树中查找与该组主排列组合词匹配一致的主排列组合词,并加入结果集。7.根据权利要求1至6任一项所述的方法,其中,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词之后,还包括:设置每个模版排列组合词与搜索量评分的对应关系;根据所述对应关系,确定所述匹配一致的排列组合词的评分。8.根据权利要求1至6任一项所述的方法,其中,当所述模版排列组合词为违禁词时,将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词之后,还包括:将所述匹配一致的排列组合词从所述用户输入的词组中删除。9.一种拆词设备,其中,该设备包括:获取装置,用于获取用户输入的词组;拆分装置,用于将所述词组拆分成单个词;组合装置,用于得到所述拆分得到的各个单个词的多个的排列组合词,所述排列组合词包括依一个或多个顺序排列的一个或一个以上的词;匹配装置,用于将得到的各个排列组合词与字典树中的模版排列组合词匹配,获取匹配一致的排列组合词,其中,字典树中的除根节点外的每个节点存储有一个词,字典树中的单个节点组成对应的模版排列组合词,或在同一分...

【专利技术属性】
技术研发人员:扈贵谦
申请(专利权)人:上海名轩软件科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1