一种切分索引分词的方法及系统技术方案

技术编号：2918686 阅读：194 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种切分索引分词的方法，包括以下步骤：读取字符流；识别所述字符流，确定汉字、英文字符或数字以及不可识别字符；将已经确定的汉字、英文字符或数字与预先建立的词典树比较，确定匹配的分词；将英文字符或数字进行ＡＳＣＩＩ码通用模糊匹配，确定英文字符串或者数字串的分词；将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符，按所述字符流顺序进行排序；按所述分词和所述英文字符串或者数字串排序的顺序划分所述字符流。本发明专利技术还公开切分索引分词的系统。本发明专利技术提供一种切分索引分词的方法及系统，能够同时解决分词准确、一定量的冗余词以及单字分词的问题，增强用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息索引领域，特别涉及一种切分索引分词的方法及系统。
技术介绍
现有信息检索系统已经日益普及，大到网络搜索引擎，小到特定应用信息检索系统。当需要进行汉字信息的处理时，信息检索系统就会遇到如何分词的问题。目前的分词算法有很多种，其中n元语法分词是一种不需要词典的机械分词方法，实现容易。但是该分词方法冗余度大，不能解决单字分词问题。二元分词方法是将句子中任意出现的两个紧邻的字都分出来，建立倒排索引。例如句子“从上述实现步骤来看”会分出“从上、上述、述实、实现、现步、步骤、骤来、来看”等几个词。从上述分出来的分词可以看出，如“述实”、“现步”等分词并没有实际意义。而且该方法也不能解决单字分词的问题，不能对英文词进行划分。最大匹配分词方法是一种按照最长词优先的原则匹配分词的方法。例如句子“从上述实现步骤来看”可能被分为“从、上述、实现步骤、来看”等几个词。这种方法分出的词比较少，但不一定是最短的，而且也不一定准确。由于这种分词方法没有一定量的冗余词，可能会导致查全率下降，在某些应用场合体验不好。基于统计或语义分析的分词方法，需要解决歧义消解问题。这种分词方法得到的结果不一定是全面的，但比较准确。但由于这种分词方法实现起来比较麻烦，而且复杂的分析过程必然会从一定程度影响分词效率，这种分词方法不适用于小型特定应用信息检索系统。
技术实现思路
本专利技术的目的是提供一种切分索引分词的方法，该方法能够同时解决分词准确、一定量的冗余词以及单字分词的问题，增强用户体验。本专利技术的目的还提供一种切分索引分词的系统，该系统能够同时解决分词准确、一定量的冗余词以及单...

【技术保护点】
一种切分索引分词的方法，其特征在于，包括以下步骤：读取字符流；识别所述字符流，确定汉字、英文字符或数字以及不可识别字符；将已经确定的汉字、英文字符或数字与预先建立的词典树比较，确定匹配的分词；将所述英文字符或数字进行ＡＳＣＩＩ码通用模糊匹配，确定英文字符串或者数字串的分词；将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符，按所述字符流顺序进行排序；按所述分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流。

【技术特征摘要】

【专利技术属性】
技术研发人员：王启明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人