本发明专利技术公开了一种切分索引分词的方法,包括以下步骤:读取字符流;识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;将英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;按所述分词和所述英文字符串或者数字串排序的顺序划分所述字符流。本发明专利技术还公开切分索引分词的系统。本发明专利技术提供一种切分索引分词的方法及系统,能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。
【技术实现步骤摘要】
本专利技术涉及信息索引领域,特别涉及一种切分索引分词的方法及系统。
技术介绍
现有信息检索系统已经日益普及,大到网络搜索引擎,小到特定应用信息检索系统。当需要进行汉字信息的处理时,信息检索系统就会遇到如何分词的问题。目前的分词算法有很多种,其中n元语法分词是一种不需要词典的机械分词方法,实现容易。但是该分词方法冗余度大,不能解决单字分词问题。二元分词方法是将句子中任意出现的两个紧邻的字都分出来,建立倒排索引。例如句子“从上述实现步骤来看”会分出“从上、上述、述实、实现、现步、步骤、骤来、来看”等几个词。从上述分出来的分词可以看出,如“述实”、“现步”等分词并没有实际意义。而且该方法也不能解决单字分词的问题,不能对英文词进行划分。最大匹配分词方法是一种按照最长词优先的原则匹配分词的方法。例如句子“从上述实现步骤来看”可能被分为“从、上述、实现步骤、来看”等几个词。这种方法分出的词比较少,但不一定是最短的,而且也不一定准确。由于这种分词方法没有一定量的冗余词,可能会导致查全率下降,在某些应用场合体验不好。基于统计或语义分析的分词方法,需要解决歧义消解问题。这种分词方法得到的结果不一定是全面的,但比较准确。但由于这种分词方法实现起来比较麻烦,而且复杂的分析过程必然会从一定程度影响分词效率,这种分词方法不适用于小型特定应用信息检索系统。
技术实现思路
本专利技术的目的是提供一种切分索引分词的方法,该方法能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。本专利技术的目的还提供一种切分索引分词的系统,该系统能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。为解决上述技术问题,本专利技术实施例提供一种切分索引分词的方法,包括以下步骤读取字符流;识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;将所述英文字符或数字进行ASCII码Wild match(通用模糊匹配),确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;按所述分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流。优选地,所述词典树为预先建立的trie字符树数据结构。优选地,所述词典树为预先建立的二进制流词典结构。优选地,所述识别所述字符流后,将所述字符流存储在内部字符缓冲区。优选地,在所述字符流存储在内部字符缓冲区之前,将所述字符流进行统一字符的处理。优选地,所述确定汉字、英文字符或数字以及不可识别字符后,去掉所述字符流中的标点符号。优选地,所述词典树在预先建立时去除无意义的单字。优选地,按所述分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流后进一步包括定期统计接收到的关键词的频率;将频率高于预定数值的关键词添加到所述词典树中。本专利技术实施例提供一种切分索引分词的系统,该系统包括读取单元,用于读取字符流; 字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;词典树单元,预先存储词组和短语的词典树的数据结构单元;比较单元,用于将所述字符流识别单元确定的汉字、英文字符或数字与所述词典树单元预先建立的词典树比较,确定匹配的分词;通用模糊匹配单元,用于将所述比较单元比较后的英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;分词管理单元,将所述比较单元和所述通用模糊匹配单元确定的分词以及所述字符流识别单元确定的不可识别字符按所述读取单元读取的字符流顺序进行排序,并记录每个上述分词和上述不可识别字符的长度;分词划分单元,将所述读取单元读取的字符流,按照所述分词管理单元记录的分词顺序以及所述每个分词和上述不可识别字符的长度进行划分。本专利技术实施例还提供一种切分索引分词的系统,该系统包括读取单元,用于读取字符流;字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;内部字符缓冲区单元,用于存储所述字符流识别单元识别的字符流;词典树单元,预先存储词组和短语的词典树的数据结构单元;比较单元,用于将所述字符流识别单元确定的汉字、英文字符或数字与所述词典树单元预先建立的词典树比较,确定匹配的分词;通用模糊匹配单元,用于将所述比较单元比较后的英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;分词管理单元,将所述比较单元和所述通用模糊匹配单元确定的分词以及所述字符流识别单元确定的不可识别字符按所述内部字符缓冲区单元存储的所述字符流顺序进行排序,并记录每个上述分词和上述不可识别字符的长度; 分词划分单元,将所述内部字符缓冲区单元存储的字符流,按照所述分词管理单元记录的分词顺序以及所述每个分词和上述不可识别字符的长度进行划分;词典自适应单元,由预先建立的统计模块统计关键词的出现频率,将所述出现频率高于预定数值的关键词添加到所述词典树单元。本专利技术所述切分索引分词的方法能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强了用户的体验。本专利技术实施例所述切分索引分词的方法,包括读取字符流;识别所述字符流中字符,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树相比较,确定匹配的分词;将英文字符或数字进行ASCII码Wild match,确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流中顺序进行排序;按所述分词和所述英文字符串或者数字串排序的顺序划分所述字符流。由于在划分分词前,所有的汉字、英文字符或数字均与预先建立的词典树相比较,避免了无效词组或者短语的出现,而且保证了适当的冗余词。在单字可以作为一个词或者具有实际意义的时候,词典树中会按照正常的词组处理,所以可以实现单字作为一个分词的划分。并且本专利技术增加了ASCII码Wild match的过程,有效的确定英文字符串以及数字串的分词。因此,本专利技术所述切分索引分词的方法能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强了用户的体验。附图说明图1为本专利技术所述方法一种实施方式流程图;图2为本专利技术所述trie字符树结构示意图;图3本专利技术所述二进制流的词典树结构示意图;图4为本专利技术第一种切分索引分词系统结构图;图5为本专利技术第二种切分索引分词系统结构图。具体实施例方式本专利技术提供一种切分索引分词的方法,该方法能够同时解决分词准确、一定量的冗余词以及单字划分的问题,增强用户体验。为了使本
的技术人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。参见图1,该图为本专利技术所述方法一种实施方式流程图。S10、读取字符流。读取的字符流中,可能包含汉字也可能包含英文字符、数字以及不可识别字符。S20、识别所述字符流,确定汉字、英文字符或数字以及不可识别字符。将步骤S10读取的字符流进行字符识别,确定所述字符流中字符具体为汉字或者英文字符或者数字或者不可识别字符。由于对所述字符流中的字符进行识别,可以很容易实现对多种字符集的切分。S30、将已经确定的汉字、英文字符或数本文档来自技高网...
【技术保护点】
一种切分索引分词的方法,其特征在于,包括以下步骤:读取字符流;识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;将所述英文字符或 数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;按所述分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符 流。
【技术特征摘要】
【专利技术属性】
技术研发人员:王启明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。