一种基于语义语气加权的倒排索引优化算法制造技术

技术编号：16662874 阅读：104 留言：0更新日期：2017-11-30 11:57

本发明专利技术公开一种基于语义语气加权的倒排索引优化算法，本发明专利技术涉及文档情报处理技术领域，解决现有技术由于仅使用特定词词频索引而存在倒排索引精确度低和索引难度大的技术问题，以及解决现有技术由于关键词序列和语义加权词库存在重复而造成的语义加权无效或无法对倒排索引实现实质改变等技术问题。本发明专利技术主要结合文档语义语气特征，构建了全新的加权词频定义式，实现了倒排文档按照加权词频排序，不仅仅表现了关键词在文档中的词频密度，还反映了关键词的表意强烈程度，更能帮助搜索用户优先找到期望的文档。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义语气加权的倒排索引优化算法
本专利技术涉及文档情报处理
，具体涉及一种基于语义语气加权的倒排索引优化算法。
技术介绍
目前搜索引擎，已经成为最常用的互联网工具，数据组织和索引也是情报学领域的研究热点。倒排文档模型根据词语频度，来反向查找关联情报，很好适应了搜索引擎的工作场景。但是单独基于词频，以及基于词频计算的权值排序策略，不能完整的反映该关键词在文档中的表意程度。本专利技术基于语义和语气加权处理，进一步完整量化了关键词对文档表示的重要性，基于该加权词频的倒排文档索引方法，能更好的帮助用户找到对应的文档和情报。
技术实现思路
针对上述现有技术，本专利技术目的在于提供一种基于语义语气加权的倒排索引优化算法，解决现有技术由于仅使用特定词词频索引而存在倒排索引精确度低和索引难度大的技术问题，以及解决现有技术由于关键词序列和语义加权词库存在重复而造成的语义加权无效或无法对倒排索引实现实质改变等技术问题。为达到上述目的，本专利技术采用的技术方案如下：一种基于语义语气加权的倒排索引优化算法，包括以下步骤：步骤1、预设语义停用词组，再设置具有不同语义加权值的增强语义词组和弱化语义词组，并均作为语义停用词组的子集；步骤2、对每个输入文档进行切词处理，获得有序词语序列；步骤3、将有序词语序列与语义停用词组进行匹配，匹配过程中滤除出现在语义停用词组中的词组获得输入文档的关键词序列；步骤4、遍历关键词序列，获得当前关键词的语气加权值后，在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组和弱化语义词组匹配的词组，由所匹配词组的语义加权值结合语气加权值...
一种基于语义语气加权的倒排索引优化算法

【技术保护点】
一种基于语义语气加权的倒排索引优化算法，其特征在于，包括以下步骤：步骤1、预设语义停用词组S(stop)，再设置具有不同语义加权值的增强语义词组S(pos)和弱化语义词组S(neg)，并均作为语义停用词组S(stop)的子集；步骤2、对每个输入文档进行切词处理，获得有序词语序列L(org)；步骤3、将有序词语序列L(org)与语义停用词组S(stop)进行匹配，匹配过程中滤除出现在语义停用词组S(stop)中的词组，获得输入文档的关键词序列L(key)；步骤4、遍历关键词序列L(key)，获得当前关键词的语气加权值后，在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组，由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频，在遍历完成后获得文档的加权词频；步骤5、根据文档加权词频进行倒排，获得索引优化的文档序列。

【技术特征摘要】
1.一种基于语义语气加权的倒排索引优化算法，其特征在于，包括以下步骤：步骤1、预设语义停用词组S(stop)，再设置具有不同语义加权值的增强语义词组S(pos)和弱化语义词组S(neg)，并均作为语义停用词组S(stop)的子集；步骤2、对每个输入文档进行切词处理，获得有序词语序列L(org)；步骤3、将有序词语序列L(org)与语义停用词组S(stop)进行匹配，匹配过程中滤除出现在语义停用词组S(stop)中的词组，获得输入文档的关键词序列L(key)；步骤4、遍历关键词序列L(key)，获得当前关键词的语气加权值后，在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组，由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频，在遍历完成后获得文档的加权词频；步骤5、根据文档加权词频进行倒排，获得索引优化的文档序列。2.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法，其特征在于，所述的步骤1，通过程度副词设置增强语义词组S(pos)和弱化语义词组S(neg)。3.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法，其特征在于，所述的步骤4，其中，通过当前关键词所在原语句句尾特征确定其语气加权值。4.根据权利要求3所述的一种基于语义语气加权的倒排索引优化算法，其特征在于，所述的步骤4，其中，获得语气加权值包括：步骤①、定义原语句的标点关联预设语气加权值；步骤②、通过当前关键词所在原语句句尾标点获得其语气加权值。5.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法，其特征在于，所述的步骤4，其中，定义原句子j中当前关键词keyindex的加权词频fkey为：

【专利技术属性】
技术研发人员：夏珺峥，傅玉生，
申请(专利权)人：成都优易数据有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人