一种基于搜索词从网页中提取摘要的方法和装置制造方法及图纸

技术编号:13964302 阅读:156 留言:0更新日期:2016-11-08 12:34
本发明专利技术公开了一种基于搜索词从网页中提取摘要的方法和装置,该方法包括:基于原始搜索词衍生出一个或多个匹配词;对于一个网页,从该网页文本中查找出各个匹配词;基于查找出各个匹配词,从该网页文本中提取摘要。本发明专利技术提供的技术方案通过在网页文本中查找搜索词衍生出的匹配词,完成了根据搜索词从网页文本中提取摘要的过程和对应的装置,基于该过程和装置,为用户提供搜索摘要服务。本方案基于搜索词提取摘要,将摘要与搜索词进行关联,克服了现有技术中摘要独立于搜索词的问题,在用户进行搜索时,为用户提供更加直观、准确、关联性强的搜索摘要,使用户可以快速有效地找到需要的网页,满足搜索需求。

【技术实现步骤摘要】

本专利技术涉及网络搜索
,具体涉及一种基于搜索词从网页中提取摘要的方法和装置
技术介绍
随着互联网技术的迅猛发展,网络已经成为人们获得信息的重要途径和手段,网络中的海量信息既给人们带来了方便,也带来了许多问题,为了找到有用信息,人们经常要花费大量的时间去搜索、浏览和查找,因此近年来搜索引擎所提供的各种搜索服务越来越引起人们的关注,其中,搜索摘要服务将各网页的摘要显示在搜索结果的窗口中,使得用户无需打开网页就能一目了然该网页是否符合搜索需求。现有技术中,搜索引擎所提供的搜索摘要服务大多是基于静态方式生成搜索摘要,即搜索摘要独立于查询,按照某种规则,事先在预处理阶段从网页内容中提取出一些文字。例如,截取网页正文的开头160个字节(对应80个汉字),或者,将每一个段落的第一个句子拼起来等。这样形成的摘要存放在查询子系统中,一旦相关网页的文档被选中与查询项匹配,就将预存的摘要展示给用户。显然,这种方式对搜索引擎来说是最轻松的,无需做其他的处理工作。但这种方式最大的缺点是:提供的摘要与用户输入的搜索词无关,不满足用户的搜索需求。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于搜索词从网页中提取摘要的方法和装置。依据本专利技术的一个方面,提供了一种基于搜索词从网页中提取摘要的方法,该方法包括:基于原始搜索词衍生出一个或多个匹配词;对于一个网页,从该网页文本中查找出各个匹配词;基于查找出各个匹配词,从该网页文本中提取摘要。可选地,所述基于原始搜索词衍生出一个或多个匹配词包括如下中的一项或多项:原始搜索词本身;对原始搜索词进行分词处理得到的各词;原始搜索词以及对原始搜索词进行分词处理得到的各词的同义词和/或纠错词;将原始搜索词进行分词处理得到的各词中的连续的两个词合并得到的词;将原始搜索词进行分词处理得到的各词中的连续的三个词合并得到的词;将原始搜索词进行分词处理得到的各词中的间隔一个词的两个词合并得到的词;原始搜索词中的各个字,以及其中的连续两个和连续三个字;对原始搜索词进行归一化后得到的词。可选地,所述对于一个网页,从该网页文本中查找出各个匹配词,以及所述基于查找出各个匹配词,从该网页文本中提取摘要包括:将所述一个或多个匹配词添加到AC自动机中;由AC自动机根据所述一个或多个匹配词,从该网页文本中提取摘要。可选地,所述基于查找出各个匹配词,从该网页文本中提取摘要包括:基于各个匹配词的位置,采用滑动窗口机制从该网页文本中提取多个文本段;从所述多个文本段中选择一段作为该网页的摘要。可选地,所述基于各个匹配词的位置,采用滑动窗口机制从该网页的网页文本中提取多个文本段包括:滑动窗口从网页文本的起始位置开始逐字向后滑动,每滑动到一个匹配词的起始位置截取滑动窗口大小的一段文本;其中,所述滑动窗口的大小在预设范围内可调,每次截取的文本以一个匹配词开始,并以一个匹配词结束。可选地,该方法进一步包括:在每次截取前,进一步对滑动窗口的位置进行修正,以保证截取的文本语义通顺。可选地,所述在每次截取前,进一步对滑动窗口的位置进行修正包括:从窗口起始位置的匹配词开始向前移动,如果遇到上一个匹配词则停止移动,判断从窗口起始位置的匹配词和上一个匹配词之间是否存在句首,如果存在则将窗口起始位置修正为以该句首开始,如果不存在则不对窗口起始位置进行修正;如果能够向前移动到段首,则将窗口起始位置修正为以该段首开始;和/或,从窗口结束置的匹配词开始向后移动,如果遇到下一个匹配词或者超出窗口的最大长度则停止移动。可选地,所述从所述多个文本段中选择一段作为该网页的摘要包括:分别计算所述多个文本段各自的综合权值,选取综合权值最高的一段文本作为该网页的摘要。可选地,匹配词的级别包括如下中的至少两种级别,级别从高到低依次为:原始搜索词;分词中的PHRASE;两个连续分词TERM连在一起;两个不连续分词TREM连在一起;连续三个汉字连在一起;分词中的TERM;两个汉字,没有停用词;两个汉字,有停用词;单个汉字;单个字符。可选地,所述对于一个网页,从该网页文本中查找出各个匹配词,以及所述基于查找出各个匹配词,从该网页文本中提取摘要包括:对于一个网页,从该网页对应的精简网页文本中查找出各个匹配词,以及所述基于查找出各个匹配词,从所述精简网页文本中提取摘要。依据本专利技术的另一个方面,提供了一种基于搜索词从网页中提取摘要的装置,该装置包括:匹配词生成单元,适于基于原始搜索词衍生出一个或多个匹配词;摘要提取单元,适于对于一个网页,从该网页文本中查找出各个匹配词;以及适于基于查找出各个匹配词,从该网页文本中提取摘要。可选地,所述基于原始搜索词衍生出的一个或多个匹配词包括如下中的一项或多项:原始搜索词本身;对原始搜索词进行分词处理得到的各词;原始搜索词以及对原始搜索词进行分词处理得到的各词的同义词和/或纠错词;将原始搜索词进行分词处理得到的各词中的连续的两个词合并得到的词;将原始搜索词进行分词处理得到的各词中的连续的三个词合并得到的词;将原始搜索词进行分词处理得到的各词中的间隔一个词的两个词合并得到的词;原始搜索词中的各个字,以及其中的连续两个和连续三个字;对原始搜索词进行归一化后得到的词。可选地,所述摘要提取单元,适于将所述一个或多个匹配词添加到AC自动机中;由AC自动机根据所述一个或多个匹配词,从该网页文本中提取摘要。可选地,所述摘要提取单元,适于基于各个匹配词的位置,采用滑动窗口机制从该网页文本中提取多个文本段;从所述多个文本段中选择一段作为该网页的摘要。可选地,所述摘要提取单元,适于采用滑动窗口从网页文本的起始位置开始逐字向后滑动,每滑动到一个匹配词的起始位置截取滑动窗口大小的一段文本;其中,所述滑动窗口的大小在预设范围内可调,每次截取的文本以一个匹配词开始,并以一个匹配词结束。可选地,所述摘要提取单元,适于在每次截取前,进一步对滑动窗口的位置进行修正,以保证截取的文本语义通顺。可选地,所述摘要提取单元,适于从窗口起始位置的匹配词开始向前移动,如果遇到上一个匹配词则停本文档来自技高网...

【技术保护点】
一种基于搜索词从网页中提取摘要的方法,其中,该方法包括:基于原始搜索词衍生出一个或多个匹配词;对于一个网页,从该网页文本中查找出各个匹配词;基于查找出各个匹配词,从该网页文本中提取摘要。

【技术特征摘要】
1.一种基于搜索词从网页中提取摘要的方法,其中,该方法包括:
基于原始搜索词衍生出一个或多个匹配词;
对于一个网页,从该网页文本中查找出各个匹配词;
基于查找出各个匹配词,从该网页文本中提取摘要。
2.如权利要求1所述的方法,其中,所述基于原始搜索词衍生出一个或
多个匹配词包括如下中的一项或多项:
原始搜索词本身;
对原始搜索词进行分词处理得到的各词;
原始搜索词以及对原始搜索词进行分词处理得到的各词的同义词和/或
纠错词;
将原始搜索词进行分词处理得到的各词中的连续的两个词合并得到的
词;
将原始搜索词进行分词处理得到的各词中的连续的三个词合并得到的
词;
将原始搜索词进行分词处理得到的各词中的间隔一个词的两个词合并得
到的词;
原始搜索词中的各个字,以及其中的连续两个和连续三个字;
对原始搜索词进行归一化后得到的词。
3.如权利要求1或2所述的方法,其中,所述对于一个网页,从该网页
文本中查找出各个匹配词,以及所述基于查找出各个匹配词,从该网页文本
中提取摘要包括:
将所述一个或多个匹配词添加到AC自动机中;
由AC自动机根据所述一个或多个匹配词,从该网页文本中提取摘要。
4.如权利要求1-3任一项所述的方法,其中,所述基于查找出各个匹配
词,从该网页文本中提取摘要包括:
基于各个匹配词的位置,采用滑动窗口机制从该网页文本中提取多个文
本段;
从所述多个文本段中选择一段作为该网页的摘要。
5.如权利要求1-4任一项所述的方法,其中,所述基于各个匹配词的位

\t置,采用滑动窗口机制从该网页的网页文本中提取多个文本段包括:
滑动窗口从网页文本的起始位置开始逐字向后滑动,每滑动到一个匹配
词的起始位置截取滑动窗口大小的一段文本;
其中,所述滑...

【专利技术属性】
技术研发人员:雷鹏文维东
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1