一种图片信息的处理方法、装置及电子设备制造方法及图纸

技术编号:30632519 阅读:16 留言:0更新日期:2021-11-04 00:03
本发明专利技术公开了一种图片信息的处理方法、装置及电子设备,该方法包括:对网页中的图片进行重复图片聚类,获取每个类簇图片的标记文本域集合;针对每张类簇图片,根据标记文本域集合获取标记文本域集合中每个标记文本域包含有的关键词及其词权重,词权重用于反映关键词和类簇图片的相关度;根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;根据每张类簇图片的目标关键词及其词权重,对图片搜索结果进行排序。在上述技术方案中,通过重复图片聚类获取大量的标记文本域,选取图片的目标关键词及其词权重,据此进行图片搜索结果的排序,解决了现有技术中因图文不符导致的图片搜索排序准确性降低的技术问题。问题。问题。

【技术实现步骤摘要】
一种图片信息的处理方法、装置及电子设备


[0001]本专利技术涉及软件
,特别涉及一种图片信息的处理方法、装置及电子设备。

技术介绍

[0002]互联网应用中,对于图片搜索有两种实现方式,一种是以图搜图,另一种是根据查询词搜图。第二种方式通常根据图片所在网页提供的图片描述信息与查询词之间的匹配进行图片搜索。
[0003]目前,互联网上的每天增加海量的图文页面,图文页面的质量参差不齐,不乏存在图文不符的页面。另外,随着图片的扩散和转发,与之对应的描述信息因为编辑、转发而逐渐失真,出现图文不符的情况。这些图文不符的页面,对图片搜索排序会产生负面影响,大大降低图片搜索排序的准确性。

技术实现思路

[0004]本专利技术实施例提供一种图片信息的处理方法、装置及电子设备,用于解决现有技术中因图文不符的页面导致的图片搜索排序准确性降低的技术问题,提高图片搜索排序的准确性。
[0005]本专利技术实施例提供一种图片信息的处理方法,所述方法包括:
[0006]对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片和所述类簇图片的标记文本域集合;
[0007]针对每张类簇图片,根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,其中,所述词权重用于反映所述关键词和类簇图片的相关度;
[0008]根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;
[0009]根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序。
[0010]可选的,所述根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,包括:
[0011]获取所述每个标记文本域中的关键词;
[0012]针对每个关键词获得如下目标参数:所述关键词在所属标记文本域中的词频和出现次数以及所述关键词对应的网站域名个数;
[0013]根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重。
[0014]可选的,根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重,包括:
[0015]针对每个所述关键词,根据所述关键词在每个所属标记文本域中的词频和出现次数,计算获得所述关键词在每个所属标记文本域中的重要程度,所述重要程度按所述词频
和出现次数衰减累加;
[0016]根据所述关键词在所有所属标记文本域中的重要程度以及所述关键词对应的网站域名个数,计算获得每个所述关键词的词权重。
[0017]可选的,所述根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序,包括:
[0018]将图片搜索时所采用的搜索词与每张类簇图片的所述目标关键词进行匹配,获得匹配关键词;
[0019]根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分;
[0020]根据每个所述匹配得分对图片搜索结果进行排序。
[0021]可选的,所述根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分,包括:
[0022]针对每张类簇图片,根据所述匹配关键词作为目标关键词的词权重和所述匹配关键词作为搜索词的词权重,计算获得所述匹配关键词的词权重;根据所述搜索词与所述目标关键词的并集和所述匹配关键词,计算获得匹配权重;
[0023]根据所述匹配关键词的词权重和所述匹配权重,计算获得每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分。
[0024]可选的,所述对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片和所述类簇图片的标记文本域集合,包括:
[0025]对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片;
[0026]从所述类簇图片所在的每个网页中抽取所述类簇图片的标记文本域;
[0027]去除所述标记文本域中的垃圾文本,并将去除所述垃圾文本后的所有标记文本域作为所述标记文本域集合。
[0028]可选的,所述去除所述标记文本域中的垃圾文本,包括:
[0029]通过预设匹配模式对所述标记文本域中的文本内容进行搜索,去除所述文本内容为垃圾文本的标记文本域;和/或,
[0030]根据所述标记文本域对应的网页类型,去除从垃圾网页上获取到的所述标记文本域;和/或,
[0031]根据所述标记文本域的对应的网页发布时间,去除发布时间早于设定时间的所述标记文本域。
[0032]本专利技术实施例还提供一种图片信息的处理装置,所述装置包括:
[0033]聚类单元,用于对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片和所述类簇图片的标记文本域集合;
[0034]词权重计算单元,用于针对每张类簇图片,根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,其中,所述词权重用于反映所述关键词和类簇图片的相关度;
[0035]关键词抽取单元,用于根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;
[0036]排序单元,用于根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序。
[0037]可选的,所述词权重计算单元用于:
[0038]获取所述每个标记文本域中的关键词;
[0039]针对每个关键词获得如下目标参数:所述关键词在所属标记文本域中的词频和出现次数以及所述关键词对应的网站域名个数;
[0040]根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重。
[0041]可选的,所述词权重计算单元还用于:
[0042]针对每个所述关键词,根据所述关键词在每个所属标记文本域中的词频和出现次数,计算获得所述关键词在每个所属标记文本域中的重要程度,所述重要程度按所述词频和出现次数衰减累加;
[0043]根据所述关键词在所有所属标记文本域中的重要程度以及所述关键词对应的网站域名个数,计算获得每个所述关键词的词权重。
[0044]可选的,所述排序单元用于:
[0045]将图片搜索时所采用的搜索词与每张类簇图片的所述目标关键词进行匹配,获得匹配关键词;
[0046]根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分;
[0047]根据每个所述匹配得分对图片搜索结果进行排序。
[0048]可选的,所述排序单元还用于:
[0049]针对每张类簇图片,根据所述匹配关键词作为目标关键词的词权重和所述匹配关键词作为搜索词的词权重,计算获得所述匹配关键词的词权重;根据所述搜索词与所述目标关键词的并集和所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图片信息的处理方法,其特征在于,所述方法包括:对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片和所述类簇图片的标记文本域集合;针对每张类簇图片,根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,其中,所述词权重用于反映所述关键词和类簇图片的相关度;根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序。2.如权利要求1所述的方法,其特征在于,所述根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,包括:获取所述每个标记文本域中的关键词;针对每个关键词获得如下目标参数:所述关键词在所属标记文本域中的词频和出现次数以及所述关键词对应的网站域名个数;根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重。3.如权利要求2所述的方法,其特征在于,根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重,包括:针对每个所述关键词,根据所述关键词在每个所属标记文本域中的词频和出现次数,计算获得所述关键词在每个所属标记文本域中的重要程度,所述重要程度按所述词频和出现次数衰减累加;根据所述关键词在所有所属标记文本域中的重要程度以及所述关键词对应的网站域名个数,计算获得每个所述关键词的词权重。4.如权利要求1所述的方法,其特征在于,所述根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序,包括:将图片搜索时所采用的搜索词与每张类簇图片的所述目标关键词进行匹配,获得匹配关键词;根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分;根据每个所述匹配得分对图片搜索结果进行排序。5.如权利要求4所述的方法,其特征在于,所述根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分,包括:针对每张类簇图片,根据所述匹配关键词作为目标关键词的词权重和所述匹配关...

【专利技术属性】
技术研发人员:潘达董国盛周泽南苏雪峰陈炜鹏许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1