筛选舆情信息及监测企业主体风险等级的舆情引擎及方法技术

技术编号:27880656 阅读:20 留言:0更新日期:2021-03-31 01:17
本发明专利技术涉及筛选舆情信息及监测企业主体风险等级的舆情引擎及方法,舆情引擎,包括:主体情感分类模块,包括多个分类的情感分类模型,用于对获取的舆情信息的情感倾向;主题分类模块,用于对获取的舆情信息进行单主题分类或多主题分类;命名体识别模块,用于进行命名体识别,并计算命名体与所述舆情信息的紧密度;舆情风险得分模块,用于获取包含命名体的所述舆情信息的风险等级;相似性检索模块,用于对获取的不同舆情信息进行相似度计算,及进行线上舆情信息筛选;企业主体风险等级监测模块,用于获取不同企业主体当前的风险等级并进行实时监测。本发明专利技术可实时从海量新闻资讯数据中快速筛选指定的相关资讯并实时对企业主体的风险等级进行监测。

【技术实现步骤摘要】
筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
本专利技术涉及计算机
,尤其涉及一种筛选舆情信息及监测企业主体风险等级的舆情引擎及方法。
技术介绍
舆情信息目的用于提醒风控人员关注舆情信息,展示信息包括主体名称、舆情内容、验证程度、消息批露时间等。现有的舆情引擎通常采用NLP和ML技术,结合金融知识背景,捕捉各业务场景的痛点构建算法模型,对各类新闻精准分析。目前,市面上大多数舆情引擎往往只重视新闻数量而忽视新闻质量,盲目推送海量新闻信息,导致类似新闻重复性较高,往往导致低效或错误的预警报送。进而,导致用户抓取新闻要点困难,受无关新闻干扰性较大,容易被无关新闻误导。
技术实现思路
本专利技术的目的在于提供一种筛选舆情信息及监测企业主体风险等级的舆情引擎及方法。为实现上述专利技术目的,本专利技术提供一种筛选舆情信息及监测企业主体风险等级的舆情引擎,包括:主体情感分类模块,包括多个分类的情感分类模型,用于对获取的舆情信息的情感倾向;主题分类模块,用于对获取的所述舆情信息进行单主题分类或多主题分类;命名体识别模块,用于进行命名体识别,并计算所述命名体与所述舆情信息的紧密度;舆情风险得分模块,用于获取包含所述命名体的所述舆情信息的风险等级;相似性检索模块,用于对获取的不同舆情信息进行相似度计算,并进行线上舆情信息筛选;企业主体风险等级监测模块,用于获取不同企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。根据本专利技术的一个方面,所述主体情感分类模块采用以下步骤获得,包括:构建训练样本集,并对所述样本集中的样本给予正面、中性、负面三个类别的标注;对所述样本集进行划分,对每一个情感分类模型,分别采用交叉验证方式进行所述情感分类模型的参数网格最优搜索,并用验证集验证所述情感分类模型,将表现最佳的参数作为最优模型;所述主体情感分类模块将所有最优的情感分类模型的预测结果通过多数投票规则获得的结果作为主体最终的情感倾向。根据本专利技术的一个方面,所述命名体识别模块基于对获取的舆情信息进行句法分析后,提取获得的关键句中的命名体,并计算所述命名体与所述舆情信息之间的紧密度。根据本专利技术的一个方面,所述舆情风险得分模块包括:关键词词典,用于进行关键词提取,以及计算所述关键词在所述舆情信息中的词得分;负面事件库,用于获取历年与所述命名体相关的负面事件;所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对舆情信息中的关键句进行评分获得句子得分,以及基于所述句子得分获取包含所述命名体的所述舆情信息的风险等级。根据本专利技术的一个方面,所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对所述关键句进行评分获得句子得分的过程中,包括:基于所述命名体识别模块获取所述舆情信息中关键句的命名体以及所述命名体与所述舆情信息的紧密度;基于所述关键词词典获取所述舆情信息中关键句的关键词、词得分和词频;基于所述负面事件库获取所述舆情信息中关键句的负面事件;基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述舆情信息中关键句进行评分获得所述句子得分。根据本专利技术的一个方面,所述舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分;所述句子得分公式为:K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))其中,K表示句子与命名体的紧密度,keyscore表示词得分,scenescore表示负面事件得分;根据本专利技术的一个方面,所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合,以及对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级。根据本专利技术的一个方面,所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的过程中,包括:所述舆情风险得分模块对完成评分的所述关键句进行判断;其中,判断所述关键句是否为疑问句,若是,则直接忽略,否则保留;判断所述关键句是否为样例句,若是,则该句忽略,否则保留;基于判断结果,将保留的所述关键句中涉及同一命名体的句子按照舆情信息顺序进行合并。根据本专利技术的一个方面,对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级的过程中,通过命名体风险得分公式获取所述命名体的风险得分并获得相应的风险等级,其中,所述命名体风险得分公式为:命名体风险得分=min(1,max(同一命名体下所有句子得分)*(1+min(1,(同一命名体下句子数量-1)/10))+同一命名体下句子数量*舆情信息额外得分的平均值);其中,舆情信息额外得分的计算方法为:Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8其中,词得分和词频是基于所述关键词词典提取的其余句子中出现的关键词所获得,得分高词的词频为Max(词得分*(1+(词频-1)/10))中所获得的关键词的词频。根据本专利技术的一个方面,计算所述关键词在所述舆情信息中的词得分的过程中,采用词得分公式获得所述词得分,其中,所述词得分公式为:词得分=1/词等级+0.5*词的情感+主题风险根据本专利技术的一个方面,计算所述命名体与所述舆情信息的紧密度的过程中,包括:判断所述命名体所在句子中是否存在观点,若存在观点,则进入下一步,否则输出预设的第一紧密度值;判断所述命名体所在句子是否为疑问句、条件句或者样例句,若均不属于上述语句,则进入下一步,否则输出预设的第一紧密度值;判断所述命名体是否携带后缀词,若不携带后缀词,则进入一步,否则输出预设的第一紧密度值;判断所述命名体所在句子中的命名体是否只有一个,若只有一个,则判断所述句子的句法结构是否满足主谓关系,若满足则输出预设的第二紧密度值,否则输出预设的第一紧密度值;若所述句子中存在多个,则判断所述句子是否为并列结构,若是,则拆分所述句子的结构,并确定是否具有主要主体,若存在主要主体,则输出预设的第二紧密度值,否则输出预设的第三紧密度值;若所述句子不是并列结构,则输出预设的第二紧密度值。根据本专利技术的一个方面,所述相似性检索模块用于舆情信息的相似度计算,以及进行实时舆情信息筛选;所述相似性检索模块对舆情信息的相似度计算的过程中包括:计算任意两篇舆情信息之间的相似关系,其中,若标题相似度或者正文相似度大于预设阈值,则定义所述舆情信息之间存在相似关系,否则不存在相似关系;将具有相似关系的所述舆情信息构建成舆情相似集合;对所述舆情相似集合中的所述舆情信息的发布时间进行排序,保留最早的一条所述舆情信息作为比较样本,删除相似集合中其余所述舆情信息;所述相似性检索模块进行实时舆情信息筛选的过程中本文档来自技高网...

【技术保护点】
1.一种筛选舆情信息及监测企业主体风险等级的舆情引擎,其特征在于,包括:/n主体情感分类模块,包括多个分类的情感分类模型,用于对获取的舆情信息的情感倾向;/n主题分类模块,用于对获取的所述舆情信息进行单主题分类或多主题分类;/n命名体识别模块,用于进行命名体识别,并计算所述命名体与所述舆情信息的紧密度;/n舆情风险得分模块,用于获取包含所述命名体的所述舆情信息的风险等级;/n相似性检索模块,用于对获取的不同舆情信息进行相似度计算,并进行线上舆情信息筛选;/n企业主体风险等级监测模块,用于获取不同企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。/n

【技术特征摘要】
1.一种筛选舆情信息及监测企业主体风险等级的舆情引擎,其特征在于,包括:
主体情感分类模块,包括多个分类的情感分类模型,用于对获取的舆情信息的情感倾向;
主题分类模块,用于对获取的所述舆情信息进行单主题分类或多主题分类;
命名体识别模块,用于进行命名体识别,并计算所述命名体与所述舆情信息的紧密度;
舆情风险得分模块,用于获取包含所述命名体的所述舆情信息的风险等级;
相似性检索模块,用于对获取的不同舆情信息进行相似度计算,并进行线上舆情信息筛选;
企业主体风险等级监测模块,用于获取不同企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。


2.根据权利要求1所述的舆情引擎,其特征在于,所述主体情感分类模块采用以下步骤获得,包括:
构建训练样本集,并对所述样本集中的样本给予正面、中性、负面三个类别的标注;
对所述样本集进行划分,对每一个情感分类模型,分别采用交叉验证方式进行所述情感分类模型的参数网格最优搜索,并用验证集验证所述情感分类模型,将表现最佳的参数作为最优模型;
所述主体情感分类模块将所有最优的情感分类模型的预测结果通过多数投票规则获得的结果作为主体最终的情感倾向。


3.根据权利要求2所述的舆情引擎,其特征在于,所述命名体识别模块基于对获取的舆情信息进行句法分析后,提取获得的关键句中的命名体,并计算所述命名体与所述舆情信息之间的紧密度;
计算所述命名体与所述舆情信息的紧密度的过程中,包括:
判断所述命名体所在句子中是否存在观点,若存在观点,则进入下一步,否则输出预设的第一紧密度值;
判断所述命名体所在句子是否为疑问句、条件句或者样例句,若均不属于上述语句,则进入下一步,否则输出预设的第一紧密度值;
判断所述命名体是否携带后缀词,若不携带后缀词,则进入一步,否则输出预设的第一紧密度值;
判断所述命名体所在句子中的命名体是否只有一个,若只有一个,则判断所述句子的句法结构是否满足主谓关系,若满足则输出预设的第二紧密度值,否则输出预设的第一紧密度值;若所述句子中存在多个,则判断所述句子是否为并列结构,若是,则拆分所述句子的结构,并确定是否具有主要主体,若存在主要主体,则输出预设的第二紧密度值,否则输出预设的第三紧密度值;若所述句子不是并列结构,则输出预设的第二紧密度值。


4.根据权利要求3所述的舆情引擎,其特征在于,所述舆情风险得分模块包括:
关键词词典,用于进行关键词提取,以及计算所述关键词在所述舆情信息中的词得分;
负面事件库,用于获取历年与所述命名体相关的负面事件;
所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对舆情信息中的关键句进行评分获得句子得分,以及基于所述句子得分获取包含所述命名体的所述舆情信息的风险等级;
计算所述关键词在所述舆情信息中的词得分的过程中,采用词得分公式获得所述词得分,其中,所述词得分公式为:
词得分=1/词等级+0.5*词的情感+主题风险;
所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对所述关键句进行评分获得句子得分的过程中,包括:
基于所述命名体识别模块获取所述舆情信息中关键句的命名体以及所述命名体与所述舆情信息的紧密度;
基于所述关键词词典获取所述舆情信息中关键句的关键词、词得分和词频;
基于所述负面事件库获取所述舆情信息中关键句的负面事件;
基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述舆情信息中关键句进行评分获得所述句子得分;
所述舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分;
所述句子得分公式为:
K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))
其中,K表示句子与命名体的紧密度,keyscore表示词得分,scenescore表示负面事件得分;
所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合,以及对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级;
所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的过程中,包括:
所述舆情风险得分模块对完成评分的所述关键句进行判断;其中,判断所述关键句是否为疑问句,若是,则直接忽略,否则保留;
判断所述关键句是否为样例句,若是,则该句忽略,否则保留;
基于判断结果,将保留的所述关键句中涉及同一命名体的句子按照舆情信息顺序进行合并;
对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级的过程中,通过命名体风险得分公式获取所述命名体的风险得分并获得相应的风险等级,其中,所述命名体风险得分公式为:
命名体风险得分=min(1,max(同一命名体下所有句子得分)*(1+min(1,(同一命名体下句子数量-1)/10))+同一命名体下句子数量*舆情信息额外得分的平均值);
其中,舆情信息额外得分的计算方法为:
Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8
其中,词得分和词频是基于所述关键词词典提取的其余句...

【专利技术属性】
技术研发人员:吴美娟
申请(专利权)人:杭州衡泰软件有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1