一种基于语义语气加权的倒排索引优化算法制造技术

技术编号:16662874 阅读:104 留言:0更新日期:2017-11-30 11:57
本发明专利技术公开一种基于语义语气加权的倒排索引优化算法,本发明专利技术涉及文档情报处理技术领域,解决现有技术由于仅使用特定词词频索引而存在倒排索引精确度低和索引难度大的技术问题,以及解决现有技术由于关键词序列和语义加权词库存在重复而造成的语义加权无效或无法对倒排索引实现实质改变等技术问题。本发明专利技术主要结合文档语义语气特征,构建了全新的加权词频定义式,实现了倒排文档按照加权词频排序,不仅仅表现了关键词在文档中的词频密度,还反映了关键词的表意强烈程度,更能帮助搜索用户优先找到期望的文档。

【技术实现步骤摘要】
一种基于语义语气加权的倒排索引优化算法
本专利技术涉及文档情报处理
,具体涉及一种基于语义语气加权的倒排索引优化算法。
技术介绍
目前搜索引擎,已经成为最常用的互联网工具,数据组织和索引也是情报学领域的研究热点。倒排文档模型根据词语频度,来反向查找关联情报,很好适应了搜索引擎的工作场景。但是单独基于词频,以及基于词频计算的权值排序策略,不能完整的反映该关键词在文档中的表意程度。本专利技术基于语义和语气加权处理,进一步完整量化了关键词对文档表示的重要性,基于该加权词频的倒排文档索引方法,能更好的帮助用户找到对应的文档和情报。
技术实现思路
针对上述现有技术,本专利技术目的在于提供一种基于语义语气加权的倒排索引优化算法,解决现有技术由于仅使用特定词词频索引而存在倒排索引精确度低和索引难度大的技术问题,以及解决现有技术由于关键词序列和语义加权词库存在重复而造成的语义加权无效或无法对倒排索引实现实质改变等技术问题。为达到上述目的,本专利技术采用的技术方案如下:一种基于语义语气加权的倒排索引优化算法,包括以下步骤:步骤1、预设语义停用词组,再设置具有不同语义加权值的增强语义词组和弱化语义词组,并均作为语义停用词组的子集;步骤2、对每个输入文档进行切词处理,获得有序词语序列;步骤3、将有序词语序列与语义停用词组进行匹配,匹配过程中滤除出现在语义停用词组中的词组获得输入文档的关键词序列;步骤4、遍历关键词序列,获得当前关键词的语气加权值后,在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组和弱化语义词组匹配的词组,由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频,在遍历完成后获得文档的加权词频;步骤5、根据文档加权词频进行倒排,获得索引优化的文档序列。上述方案中,所述的步骤1,通过程度副词设置增强语义词组和弱化语义词组。上述方案中,所述的步骤4,其中,通过当前关键词所在原语句句尾特征确定其语气加权值。上述方案中,所述的步骤4,其中,获得语气加权值包括:步骤①、定义原语句的标点关联预设语气加权值;步骤②、通过当前关键词所在原语句句尾标点获得其语气加权值。上述方案中,所述的步骤4,其中,定义原句子j中当前索引的关键词keyindex的加权词频fkey为:Wi为关键词key的语义加权值,n代表文档中关键词key的数量,m表示关键词key和之前关键词之间与增强语义词组和弱化语义词组匹配的语义词组数量,Wj为语气加权值。一种确定文档加权词频的方法,包括以下步骤:步骤1、设置具有不同语义加权值的词库;步骤2、将文档的关键词词组和词库进行匹配,并将所有未被匹配的关键词词组作为关键词序列;步骤3、将原语句句尾特征进行划分定量,确定每种句尾特征对应的语气加权值,再通过关键词序列中每个关键词所在原语句的句尾特征确定出对应关键词的语气加权值;步骤4、在当前关键词位置至其上次出现位置范围内查询文档词组中与词库匹配的词组,通过匹配的词组获得当前关键词的语义加权值,结合语气加权值通过权重乘积计算出当前关键词的加权词频,然后遍历关键词序列,通过求和计算出文档的加权词频。上述方案中,所述的步骤1,预设语义停用词组,再设置增强语义词组和弱化语义词组并均作为语义停用词组的子集。一种确定关键词语义加权值的方法,包括以下步骤:步骤1、设置与关键词词组交集为空的增强语义词组和弱化语义词组,增强语义词组和弱化语义词组分别赋有不同的语义加权值;步骤2、在关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组和弱化语义词组匹配的词组;步骤3、根据匹配的词组所赋有的语义加权值,通过权重乘积计算出该关键词的语义加权值。与现有技术相比,本专利技术的有益效果:本专利技术倒排文档按照加权词频排序,不仅仅表现了关键词在文档中的词频密度,还反映了关键词的表意强烈程度,更能帮助搜索用户优先找到期望的文档,而现有技术存在如何才能构建出停用词组以及定义其子集增强/弱化语义词组(以用于首先滤除后再匹配)、如何使用语气语义准确定量加权和如何避免与语义词组重复的关键词造成语义加权无效的技术壁垒。附图说明图1为本专利技术的主要处理流程示意图;图2为本专利技术实施例的处理流程示意图。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合附图对本专利技术做进一步说明:一种基于语义语气加权的倒排索引优化算法,包含如下步骤:S0、预设增强语义词组S(pos),预设弱化语义词组S(neg),预设语义停用词组S(stop),且S(pos)和S(neg)是S(stop)的子集;S1、对每个输入文档进行切词处理,将文档表示为一个有序词语的序列L(org);S2、对L(org)中停用词进行处理,对集合L(org)中的词语逐次扫描,过滤掉S(stop)中出现过的词语,得到文档关键词序列L(key);S3、计算每个关键词的加权词频,以及检查关键词所在原语句的语气,并做和:其中Wi为关键词key的语义加权值,n表示文档中包含关键词key的数量,m表示关键词key与之前关键词之间的增强/弱化语义词数量,Wj为语气加权值;S4、根据文档加权词频进行倒排,文档集合中,文档按照加权词频进行索引排序;进一步的,预设增强语义词,表示正向强化词语语义的副词,助词等,增强语义词组包含并不限于例如“十分”“真的”“特别”“非常”“很”“相当”。进一步的,预设弱化语义词组,表示弱化语义表达,降低表述确定行的副词,助词等,弱化予以词组包含并不限于例如:”可能”“大概”“有点”“隐约”“好像”“是否”。进一步的,两个词组均为预设资源。进一步的,如加权词频计算公式所示,每个关键词的语义权值,与其之前位置上的每个语义词权值的乘积正相关。如果关键词之前没有语义词,则权值为1。进一步的,Wj为语气加权值。语气加权值来自语句的语气,加权到该语句的每个关键词上,以句号结尾的语句,其语气为陈述,加权值为1;以叹号结尾的语句,其语气为感叹和祈使,语气强烈,加权值大于1;以问号结尾的语句,其语气为疑问,反问,表明自己或者对方的不确定性,语气弱化语义,加权值小于1。实施例1如图2所以,本专利技术一种实施过程为:S01、加载预设语义增强词库S(pos)和语义弱化词库S(neg),以及相应权值;S02、读取文档库中任何一个文档;S03、对文档分词,得到文档词序表示L(org);对L(org)过滤停用词,得到关键词序L(key);S04、对L(key)中每个key,根据其所在语句,得到其语气加权值Wj(key);S05、遍历L(key),记录每个关键词key及其左侧相邻的关键词key-1;S06、遍历L(org),对key-1和key之间的词,在S(pos)和S(neg)中查找是否存在;S07、找到存在的语义强化/弱化词后,将其权重值乘到关键词key的加权词频上,找到关键词key所在语句标点,根据标点将语气权重,乘积到关键词key的加权词频上;S08、在遍历过程中,把计算得到的key在当前语境下的加权词频,求和到关键词key在之前语境下的加权词频上;S09、如果L(key)还有未处理关键词,跳转S5步骤,继续;S10、如果文档集合还有未处理文档,跳转S2步骤,继续;S11本文档来自技高网...
一种基于语义语气加权的倒排索引优化算法

【技术保护点】
一种基于语义语气加权的倒排索引优化算法,其特征在于,包括以下步骤:步骤1、预设语义停用词组S(stop),再设置具有不同语义加权值的增强语义词组S(pos)和弱化语义词组S(neg),并均作为语义停用词组S(stop)的子集;步骤2、对每个输入文档进行切词处理,获得有序词语序列L(org);步骤3、将有序词语序列L(org)与语义停用词组S(stop)进行匹配,匹配过程中滤除出现在语义停用词组S(stop)中的词组,获得输入文档的关键词序列L(key);步骤4、遍历关键词序列L(key),获得当前关键词的语气加权值后,在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组,由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频,在遍历完成后获得文档的加权词频;步骤5、根据文档加权词频进行倒排,获得索引优化的文档序列。

【技术特征摘要】
1.一种基于语义语气加权的倒排索引优化算法,其特征在于,包括以下步骤:步骤1、预设语义停用词组S(stop),再设置具有不同语义加权值的增强语义词组S(pos)和弱化语义词组S(neg),并均作为语义停用词组S(stop)的子集;步骤2、对每个输入文档进行切词处理,获得有序词语序列L(org);步骤3、将有序词语序列L(org)与语义停用词组S(stop)进行匹配,匹配过程中滤除出现在语义停用词组S(stop)中的词组,获得输入文档的关键词序列L(key);步骤4、遍历关键词序列L(key),获得当前关键词的语气加权值后,在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组,由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频,在遍历完成后获得文档的加权词频;步骤5、根据文档加权词频进行倒排,获得索引优化的文档序列。2.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤1,通过程度副词设置增强语义词组S(pos)和弱化语义词组S(neg)。3.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,通过当前关键词所在原语句句尾特征确定其语气加权值。4.根据权利要求3所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,获得语气加权值包括:步骤①、定义原语句的标点关联预设语气加权值;步骤②、通过当前关键词所在原语句句尾标点获得其语气加权值。5.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,定义原句子j中当前关键词keyindex的加权词频fkey为:

【专利技术属性】
技术研发人员:夏珺峥傅玉生
申请(专利权)人:成都优易数据有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1