一种自动生成网页的方法及装置制造方法及图纸

技术编号:8466444 阅读:186 留言:0更新日期:2013-03-23 18:35
本发明专利技术提供了一种自动生成网页的方法及装置,其中自动生成网页的方法包括:根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。通过上述方式,可根据源语言网页自动生成流畅性高、可读性强的目标语言网页。

【技术实现步骤摘要】
一种自动生成网页的方法及装置
本专利技术涉及互联网数据处理技术,特别涉及一种自动生成网页的方法及装置。
技术介绍
随着网络技术的发展,互联网上的各种信息也越来越丰富,尤其是百科全书类型的网站,给人们查找各类信息提供了极大的便利,例如现有的百度百科、维基百科、互动百科等网站,都是人们获取各类知识的有力助手。但是英文的百科网站上的网页内容,通常很难让只懂中文的人阅读。以往为了把这些目标用户不能阅读的信息提供给目标用户,采用的手段是使用机器翻译的方法,将这些以目标用户难以识别的语言形式存在的网页内容翻译为目标用户能够识别的语言形式,但是由于现有的机器翻译技术的限制,很难实现在将源语言的网页翻译为目标语言的网页时,保证目标语言网页的流畅度和可读性。很多通过机器翻译得到的目标语言网页,可读性都大打折扣,从而极大地影响了用户对相关信息的理解。实际上,人们在获取百科类信息时,并不要求信息的绝对完整性,但是对网页内容的流畅度和可读性的要求却较高。也就是说,如果人们希望了解一个介绍歌星迈克尔杰克逊的英文网页上的内容,人们并不是要了解这个英文网页上每个字词和句子的含义,而是需要了解这个网页的主要信息。
技术实现思路
本专利技术所要解决的技术问题是提供一种自动生成网页的方法及装置,以解决现有技术在利用源语言的网页得到目标语言的网页时存在的难以保证目标语言网页的流畅度和可读性的缺陷。本专利技术为解决技术问题而采用的技术方案是提供一种自动生成网页的方法,包括:根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。根据本专利技术之一优选实施例,根据第一语言页面生成第一语言检索词的步骤包括:将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。根据本专利技术之一优选实施例,根据第一语言页面生成第一语言检索词的步骤包括:将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。根据本专利技术之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。根据本专利技术之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本专利技术之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本专利技术之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面翻译为第二语言对比页面;分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本专利技术之一优选实施例,在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。根据本专利技术之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本专利技术之一优选实施例,针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括:针对所述第一语言页面中的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语。根据本专利技术之一优选实施例,在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。根据本专利技术之一优选实施例,在利用提取的第二语言句子形成最终网页的步骤中,将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。本专利技术还提供了一种自动生成网页的装置,包括:检索词生成单元,用于根据第一语言页面生成第一语言检索词;检索单元,用于将所述第一语言检索词翻译成第二语言检索词,并使用所述第二语言检索词在第二语言页面集合中进行检索;候选页面抽取单元,用于从各个第二语言检索结果页面中提取第二语言候选页面;匹配句子抽取单元,用于针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子;网页生成单元,用于利用提取的第二语言句子生成最终网页。根据本专利技术之一优选实施例,所述检索词生成单元将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,所述检索词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。根据本专利技术之一优选实施例,所述检索词生成单元将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。根据本专利技术之一优选实施例,所述候选页面抽取单元包括:第一翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题;第一确定子单元,用于从各个本文档来自技高网...
一种自动生成网页的方法及装置

【技术保护点】
一种自动生成网页的方法,其特征在于,所述方法包括:根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。

【技术特征摘要】
1.一种自动生成网页的方法,其特征在于,所述方法包括:根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页;其中,针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括:针对所述第一语言页面中的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子;该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,其中可译词是指在对应的第二语言句子中存在相应翻译词的词语。2.根据权利要求1所述的方法,其特征在于,根据第一语言页面生成第一语言检索词的步骤包括:将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词;或者,将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。3.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。4.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。5.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面的标题翻译为第二语言标题;将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。6.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:将所述第一语言页面翻译为第二语言对比页面;分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。7.根据权利要求6所述的方法,其特征在于,在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。8.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。9.根据权利要求1所述的方法,其特征在于,在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。10.根据权利要求1所述的方法,其特征在于,在利用提取的第二语言句子形成最终网页的步骤中,将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。11.一种自动生成网页的装置,其特征在于,所述装置包括:检索词生成单元...

【专利技术属性】
技术研发人员:蓝翔沈文竹吴甜吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1