一种多语言混合的新闻价值排序方法技术

技术编号:36572544 阅读:12 留言:0更新日期:2023-02-04 17:29
本发明专利技术提供一种多语言混合的新闻价值排序方法,属于信息处理技术领域,具体包括:将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法得到所述新闻的真实性评估数据;基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据;基于新闻吸引力评估算法得到所述新闻的吸引力评估数据;基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而结合多方面因素实现对新闻价值的定量评价,进而实现了更加准确的推荐顺序排序。而实现了更加准确的推荐顺序排序。而实现了更加准确的推荐顺序排序。

【技术实现步骤摘要】
一种多语言混合的新闻价值排序方法
[0001]

[0002]本专利技术属于信息处理
,尤其涉及一种多语言混合的新闻价值排序方法。

技术介绍

[0003]如今,大量新闻网站和应用程序为用户提供了丰富的信息资源,人们通过互联网上发布的新闻以了解世界各地的信息,缩短了与他人的距离。然而,海量新闻信息也给用户带来了新的问题和挑战。一方面,世界各地的新闻来源不计其数,使得用户难以定位与其个人兴趣相匹配的新闻。另一方面,不同的新闻网站和应用程序具有不同的资源和背景,导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术,它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻,通过挖掘用户潜在的阅读兴趣,为其提供个性化推荐服务,从而帮助用户节省时间和精力,提高用户的满意度。
[0004]中国专利技术授权专利公开号CN101694659B《基于多主题追踪的个性化网络新闻推送方法》公开了一种基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:获取用户浏览过的新闻网页,划分成多个用户子兴趣模型;根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;判断子兴趣模型的个数是否超过预设阈值,若是,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找待推送的新闻与所有子兴趣模型之间的最高相似度;计算新闻报道的排序值将排序值从大到小进行排序,将排序后的新闻列表推送给用户。本专利技术具有能够涵盖用户的多种兴趣特征,推荐准确率高,系统后续维护负担较轻的优点。
[0005]因此可见,目前,商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段,以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而,这种方式一方面极易造成信息茧房及圈层固化,另一方面,由于缺乏对新闻价值的综合评估,导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主,或者仅对某一因素进行定量分析,缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。
[0006]针对上述技术问题,本专利技术提供了一种多语言混合的新闻价值排序方法与系统。

技术实现思路

[0007]为实现本专利技术目的,本专利技术采用如下技术方案:根据本专利技术的一个方面,提供了一种多语言混合的新闻价值排序方法。
[0008]一种多语言混合的新闻价值排序方法,具体包括:S11将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,
并得到所述新闻发布主体的可信度评估数据;S13基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
[0009]针对多语言的新闻文本,首先将其转换为固定语言的新闻文本内容,并通过文本内容真实性评估算法对所述新闻进行真实性评价,得到真实性评估数据,再所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据,接着对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据,基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段,造成的信息茧房及圈层固化的技术问题,同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法,仅仅依靠某一因素进行定量分析的缺点,从而使得能够更加准确的对新闻进行推荐排序,并通过定量的方式实现对新闻价值的确定,进一步提升了新闻推荐排序的可靠性。
[0010]通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而实现了对新闻价值的量化评估,并为新闻价值进行评分,解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题,同时也解决了单一性的量化导致的准确率交底的问题,为新闻的排序提供高质量的排序结果,实现了对新闻文本真实性与主体可信度的有效评估。
[0011]进一步的技术方案在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。
[0012]传播内容要素包括内容维度特征与写作风格维度特征,受众因素为互动者的身份特征,传播效果因素包括互动者的语言以及反馈的情绪倾向特征,从而实现了从多维度的角度对文本内容的真实性进行定量的评价,为进一步实现对新闻的精准排序和推荐奠定了基础,并结合互动者的情绪反馈以及身份特征,进一步提升了完备性和可靠性,构建出完善的文本内容真实性判断模型,减少低可信度新闻的推荐次数,缓解虚假新闻对阅读者的干扰。
[0013]进一步的技术方案在于,所述新闻主体可信度评估算法采集基于粒神经网络的算法。
[0014]粒神经网络是粒计算与神经网络的结合,通过粒度分配机制,可提高模型的泛化能力,改善新闻主体可信度评估的可解释性。
[0015]进一步的技术方案在于,所述新闻发布主体的可信度评估数据的评估步骤为:S21提取影响所述新闻发布主体的特征量,所述新闻的情感倾向属性;S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中,得到评估结果;S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。
[0016]新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向,通过主题模型、情感分析等操作实现对主体可信度影响特征的量化,得到影响媒体主体可信度的特征排序。
[0017]进一步的技术方案在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
[0018]进一步的技术方案在于,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。
[0019]具体的举个例子,其确定过程如公式(1)所示:其中,
ꢀꢀ
为新闻吸引力评分, 为各种新闻的价值权重, 为该类新闻吸引力低到一定阈值,可视为无吸引力的最终时间, 表示该新闻已持续时间, 为时间差倍数权重。
[0020]具体做法为:在训练新闻吸引力模型时,将新闻的发布时长与新闻种类以及人工标注的吸引力值构建成一个完整的数据集,利用LSTM算法的神经网络模型进行预先训练,得到公式(1)中的关键参数 以及该类新闻对应的参数
ꢀꢀ
。在使用阶段时,模型通过提取到的发布时间参数以及新闻种类参数,根据公式(1)得到该新闻的吸引力评分。
[0021]新闻往往具有时效性,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言混合的新闻价值排序方法,其特征在于,具体包括:S11、将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;S12、基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;S13、基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;S14、基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。2.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素,对所述新闻的真实性进行评估得到真实性评估数据。3.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻主体可信度评估算法采集基于粒计算

神经网络。4.如权利要求3所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻发布主体的可信度评估数据的评估步骤为:S21、提取影响所述新闻发布主体的特征量、所述新闻的情感倾向属性;S22、将所述特征量、所述情感倾向属性传输至基于所述粒计算

神经网络的数据模型中,得到评估结果;S23、基于所述评估结果得到所述新闻发布主体的可信度评估数据。5.如权利要求4所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。6.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长和新闻种类确定,其确定过程如公式(1)所示:其中, 为新闻吸引力评分, 为各种新闻的价值权重, 为该类新闻吸引力低到一定阈值,可视为无吸引力的最终时间, 表示该新闻已持续时间, 为时间差倍数权重。7.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的新闻价值评估数据的评估具体步骤为:S31、基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信...

【专利技术属性】
技术研发人员:吴林周亭吴治伟王士奇李伟蓝星
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1