基于眼动仪的高质量用户生成内容的识别方法和系统技术方案

技术编号:28980045 阅读:22 留言:0更新日期:2021-06-23 09:26
本发明专利技术提供了一种基于眼动仪的高质量用户生成内容的识别方法和系统,涉及用户生成内容分类技术领域。本发明专利技术利用眼动仪获取注视区域,并根据注视区域对文章进行重排版,重排版后的字符更加适配使用场景,能够使后续阅读时长的计时更加准确。用户打开文章浏览页面后,通过眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长作为段落的阅读时长,再基于所述停留时长,计算文章的评论的可信值B,基于可信值筛选高质量评论;同时基于所述高质量评论,计算文章的质量值Q,基于质量值筛选高质量文章,使机器人和水军的评论不会被收入评判数据,最终实现高准确度的高质量用户生成内容的识别。

【技术实现步骤摘要】
基于眼动仪的高质量用户生成内容的识别方法和系统
本专利技术涉及用户生成内容分类
,具体涉及一种基于眼动仪的高质量用户生成内容的识别方法和系统。
技术介绍
随着互联网技术的高速发展和社交媒体的广泛应用,越来越多的虚拟社区建立起来,由用户创造传播的信息在网络社会中发挥着越来越重要的作用,用户生成内容(UGC,User-GeneratedContent)成为了Web2.0环境下众多学者的研究热点。但UGC信息质量良莠不齐,需要投入大量的时间和精力才能从中寻找出高质量的UGC信息。现有的UGC质量研究通常仅基于信息质量和用户属性进行识别。但上述方法无法很好应对水军、机器人等问题,导致高质量用户生成内容的识别准确度不高。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于眼动仪的高质量用户生成内容的识别方法和系统,解决了现有高质量用户生成内容识别方法无法很好应对水军、机器人的问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:第一方面,提供了一种基于眼动仪的高质量用户生成内容的识别方法,该方法包括:基于上传的文章,获取所述文章的段落信息其中,表示第n个段落的字符信息,N表示文章的总段落数量;基于眼动仪获取的注视区域,计算各个段落的重排版信息Set={s1,s2,…,sn,…,sN};其中,表示第n个段落的重排版信息,dp表示段落间距,sizeword表示字符尺寸,numcpl表示每行预设字符数,表示第n个段落的行数,表示第n个段落的显示尺寸;基于各个段落的重排版信息,对所述文章进行重排版;基于重排版后的文章,生成包含多个段落的段落显示区域的文章浏览页面;所述段落显示区域包括第n个段落在显示设备上的位置及尺寸信息;用户打开文章浏览页面后,眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长其中,表示注视区域在第n个段落的段落显示区域的停留时长;基于所述停留时长,计算文章的评论的可信值B,将所述可信值高于第一预设阈值的评论标记为高质量评论;基于所述高质量评论,计算文章的质量值Q,并将所述质量值大于第二预设阈值的文章标记为高质量文章。进一步的,所述基于眼动仪获取的注视区域,计算第n个段落的重排版信息包括:对注视区域进行圆拟合,获取注视区域的中心和直径R;设置字符尺寸sizeword中的字符高度pixelh≥R;段落间距dp≥R;对于任意段落,基于字符尺寸sizeword,计算每行预设字符数numcpl;基于每行预设字符数numcpl和段落字符数计算段落的行数基于行间距dline、字符尺寸sizeword、每行预设字符数numcpl和段落的行数计算段落的显示尺寸进一步的,所述每行预设字符数numcpl的计算方法为:所述段落的行数的计算方法为:所述计算段落的显示尺寸的计算方法为:其中,pixelline表示每行像素数,pixelh和pixelw分别表示字符尺寸sizeword中的字符高度和宽度,和分别表示段落的显示尺寸中的宽度和高度,dline表示行间距。进一步的,所述基于重排版后的文章,生成包含多个段落的段落显示区域的文章浏览页面,包括:所述段落显示区域的尺寸为段落的显示尺寸段落显示区域的位置为段落显示区域在文章浏览页面中的坐标信息;在刷新文章浏览页面时,更新文章浏览页面中的段落显示区域进一步的,所述计算注视区域在各个段落显示区域的停留时长包括:当注视区域与段落显示区域存在交集时,记为在段落显示区域停留,开始停留时长计时;当注视区域与段落显示区域的交集为空时,记为在段落显示区域停留,停止停留时长计时。进一步的,所述计算注视区域在各个段落显示区域的停留时长还包括:停留时长计时的过程中,获取k时刻和k+1时刻的注视区域的中心点坐标,计算两个所述中心点坐标构成的视线移动方向与文字阅读方向的夹角α和移动高度mh;若移动高度mh大于字符尺寸sizeword中的字符高度pixelh,且夹角α大于第三预设阈值,则令时间段Δt=[k,k+1]不计入停留时长。进一步的,所述基于所述停留时长,计算文章的评论的可信值B,包括:获取评论对应的用户的历史阅读速度Vhis;计算用户阅读第n个段落的阅读速度Vn,若Vn-Vhis≥V0,则记录第n个段落已阅读,V0表示阅读速度判定参数;计算该用户的文章已阅读比例作为评论的可信值B。进一步的,所述基于所述高质量评论,计算文章的质量值Q,包括:获取文章的高质量评论,所述评论的类型包括好、一般或不好;计算各个评论的类型的占比,将评论为好的占比作为文章的质量值Q。进一步的,所述第一预设阈值为80%,第二预设阈值为60%,第三阈值为45°。第二方面,提供了一种基于眼动仪的高质量用户生成内容的识别系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。(三)有益效果本专利技术提供了一种基于眼动仪的高质量用户生成内容的识别方法和系统。与现有技术相比,具备以下有益效果:本专利技术利用眼动仪获取注视区域,并根据注视区域对文章进行重排版,重排版后的字符更加适配使用场景,能够使后续阅读时长的计时更加准确。用户打开文章浏览页面后,通过眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长作为段落的阅读时长,再基于所述停留时长,计算文章的评论的可信值B,基于可信值筛选高质量评论;同时基于所述高质量评论,计算文章的质量值Q,基于质量值筛选高质量文章,使机器人和水军的评论不会被收入评判数据,最终实现高准确度的高质量用户生成内容的识别。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的流程图;图2为眼动仪获取的注视区域示意图;图3为不计入停留时长的视线移动方向的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请实施例通过提供一种基于眼动仪的高质量用户生成内容的识别方法和系统,解决了现有高质量用户生成内容识别方法无法很好应对水军、机器人的问题。为了更好的理解上述技术方案,下面将结合说明书附图以及本文档来自技高网...

【技术保护点】
1.一种基于眼动仪的高质量用户生成内容的识别方法,其特征在于,该方法包括:/n基于上传的文章,获取所述文章的段落信息

【技术特征摘要】
1.一种基于眼动仪的高质量用户生成内容的识别方法,其特征在于,该方法包括:
基于上传的文章,获取所述文章的段落信息其中,表示第n个段落的字符信息,N表示文章的总段落数量;
基于眼动仪获取的注视区域,计算各个段落的重排版信息Set={s1,s2,…,sn,…,sN};
其中,表示第n个段落的重排版信息,dp表示段落间距,sizeword表示字符尺寸,numcpl表示每行预设字符数,表示第n个段落的行数,表示第n个段落的显示尺寸;
基于各个段落的重排版信息,对所述文章进行重排版;
基于重排版后的文章,生成包含多个段落的段落显示区域的文章浏览页面;所述段落显示区域包括第n个段落在显示设备上的位置及尺寸信息;
用户打开文章浏览页面后,眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长其中,表示注视区域在第n个段落的段落显示区域的停留时长;
基于所述停留时长,计算文章的评论的可信值B,将所述可信值高于第一预设阈值的评论标记为高质量评论;
基于所述高质量评论,计算文章的质量值Q,并将所述质量值大于第二预设阈值的文章标记为高质量文章。


2.如权利要求1所述的一种基于眼动仪的高质量用户生成内容的识别方法,其特征在于,基于眼动仪获取的注视区域,计算第n个段落的重排版信息包括:
对注视区域进行圆拟合,获取注视区域的中心和直径R;设置字符尺寸sizeword中的字符高度pixelh≥R;段落间距dp≥R;
对于任意段落,基于字符尺寸sizeword,计算每行预设字符数numcpl;
基于每行预设字符数numcpl和段落字符数计算段落的行数
基于行间距dline、字符尺寸sizeword、每行预设字符数numcpl和段落的行数计算段落的显示尺寸


3.如权利要求2所述的一种基于眼动仪的高质量用户生成内容的识别方法,其特征在于,所述每行预设字符数numcpl的计算方法为:



所述段落的行数的计算方法为:



所述计算段落的显示尺寸的计算方法为:



其中,pixelline表示每行像素数,pixelh和pixelw分别表示字符尺寸sizeword中的字符高度和宽度,和分别表示段落的显示尺寸中的宽度和高度,dline表示行间距。


4.如权利要求1所述的一种基于眼动仪的高质量用户生成内容...

【专利技术属性】
技术研发人员:谷炜张婷婷金家华石美珠
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1