判断新闻中主要关联公司的方法及相关设备技术

技术编号:28793875 阅读:23 留言:0更新日期:2021-06-09 11:32
本发明专利技术属于金融财经技术领域,具体涉及一种判断新闻中主要关联公司的方法及相关设备。其中方法包括获取新闻数据,从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词;根据公司与新闻数据的相关度值和相关度动态阈值过滤非主要关联公司,确定所有主要关联公司;输出主要关联公司结果。本发明专利技术通过相关度值和相关度动态阈值来筛选出主要关联公司,筛选结果可靠精确。筛选结果可靠精确。筛选结果可靠精确。

【技术实现步骤摘要】
判断新闻中主要关联公司的方法及相关设备


[0001]本专利技术属于金融财经
,具体涉及一种判断新闻中主要关联公司的方法及相关设备。

技术介绍

[0002]在金融财经领域中,财经新闻是重要的信息来源,因此对财经新闻的分析是金融科技领域的一项基础性工作。在对财经新闻的各种分析中,最重要的一项是提取出新闻中提及的公司。在多数情况下,新闻中会提及不止一家公司,有些公司和新闻的相关度较低,而有些公司和新闻的关联程度较高,新闻内容主要围绕这些公司展开,这些高关联公司通常也是后续分析所关注的对象。
[0003]目前对新闻中主要关联公司进行判定的方法不多,有些网站对于公司和新闻的关联性不做定量分析,如东方财富网站上的公司相关资讯,只要新闻中出现了公司名称,就把新闻和公司关联起来。有些网站和数据服务如路透的新闻服务API会提供公司和新闻的相关度,用户可通过设定相关度阈值来提取出新闻的主要关联公司。
[0004]但是以相关度和阈值的方法来确定新闻中主要关联公司的方法存在判定不准确的问题。由于新闻的长度不同,新闻中出现公司的数量、位置不同,导致对于不同的新闻,公司相关度的分布是不同的,因此使用一个固定的阈值判定是否主要关联公司可能会发生错误,导致输出了多余的公司或漏掉了主要关联公司。即使把阈值和新闻长度关联起来形成动态阈值,效果也不理想,因为长度相同的新闻中公司的分布相差也很明显,计算出的公司相关度也有明显差异。所以简单的和新闻长度相关的动态阈值也会存在判定不准确的问题。
[0005]另外,以相关度和阈值的方法来确定新闻中主要关联公司的方法对于一篇新闻内描述多个事件的情况不能很好地处理。此类新闻通常是信息综述,往往会描述若干个不相关的事件,每个事件中都可能会有一些和该事件比较相关的公司出现。因此最终结果中可能出现多个相关度较高的公司,但实际上这类新闻并没有主要关联公司。单纯通过对相关度和阈值的分析不能识别出此类新闻,也无法做出专门处理。

技术实现思路

[0006]本专利技术针对从财经新闻中提取出新闻中提及的主要关联公司时,以相关度和阈值的方式无法得到较为精确结果的技术问题,目的在于提供一种判断新闻中主要关联公司的方法及相关设备。
[0007]判断新闻中主要关联公司的方法,包括如下步骤:
[0008]获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作com
i
i∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;
[0009]根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold
过滤非主要关联公司,确定所有主要关联公司;
[0010]输出主要关联公司结果。
[0011]可选的,所述相关度值rel
i
为根据所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
计算得到,所述相关度动态阈值grad_threshold为根据rel
i
计算得到。
[0012]可选的,所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
的统计方法为:
[0013]以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;
[0014]统计所述新闻数据中的自然段总数,记为PARA_CNT;
[0015]统计所述新闻数据中出现com
i
的名称词的句子数量,记为sen_cnt
i

[0016]统计所述新闻数据中出现com
i
的名称词的自然段数量,记为para_cnt
i

[0017]可选的,采用如下公式计算所有公司和新闻数据的相关度值:
[0018][0019]其中,A和B为预设的大于0的系数,且A+B=1。
[0020]可选的,在统计所述新闻数据中的自然段总数时,所述新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。
[0021]可选的,在统计所述新闻数据中出现com
i
的名称词的自然段数量时,如果com
i
在标题中出现,para_cnt
i
+=C,其中C为预设的大于0的系数。
[0022]可选的,所述相关度动态阈值grad_threshold为根据rel
i
计算得到,包括:
[0023]将公司按rel
i
降序排列,得到com
j
j∈[1,N],表示排序后的第j个公司;
[0024]计算相邻公司间的相关度下降梯度,grad
j
表示com
j
和com
j+1
之间的下降梯度,grad
j
的计算公式为:
[0025][0026]当存在k使得rel
k
>D and grad
k
≥E,记录所述相关度动态阈值grad_threshold=rel
k
,如果不存在这样的k,则所述相关度动态阈值grad_threshold=0,其中D和E均为预设的大于0的阈值。
[0027]可选的,根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括:
[0028]取com
j
及其相关数据,其中com
j
j∈[1,N],表示将公司按rel
i
降序排列后的第j个公司;
[0029]如果N>F且相关度值rel
j
小于相关度动态阈值grad_threshold,则com
j
不是主要关联公司,转到下下步,否则转到下一步,其中F为预设的大于0的阈值;
[0030]如果如果则comj是主要关联公司,转到下一步,其中,abs_thresh是相关度过滤绝对阈值,G、H、I和J均为预设的大于0的阈值;
[0031]如果j等于N,转到下一步,否则j=j+1,转到第一步;
[0032]返回主要关联公司结果。
[0033]可选的,所述根据com
i
公司与所述新闻数据的相关度值rel
i
和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种判断新闻中主要关联公司的方法,其特征在于,包括如下步骤:获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作com
i
i∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;输出主要关联公司结果。2.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述相关度值rel
i
为根据所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
计算得到,所述相关度动态阈值grad_threshold为根据rel
i
计算得到。3.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
的统计方法为:以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;统计所述新闻数据中的自然段总数,记为PARA_CNT;统计所述新闻数据中出现com
i
的名称词的句子数量,记为sen_cnt
i
;统计所述新闻数据中出现com
i
的名称词的自然段数量,记为para_cnt
i
。4.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中的自然段总数时,所述新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。5.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中出现com
i
的名称词的自然段数量时,如果com
i
在标题中出现,para_cnt
i
+=C,其中C为预设的大于0的系数。6.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,采用如下公式计算所有公司和新闻数据的相关度值:其中,A和B为预设的大于0的系数,且A+B=1。7.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,所述相关度动态阈值grad_threshold为根据rel
i
计算得到,包括:将公司按rel
i
降序排列,得到com
j
j∈[1,N],表示排序后的第j个公司;计算相邻公司间的相关度下降梯度,grad
j
表示com
j
和com
j+1
之间的下降梯度,grad
j
的计算公式为:当存在k使得rel
k
>D and grad
k
≥E,记录所述相关度动态阈值grad_threshold=
rel
k
,如果不存在这样的k,则所述相关度动态阈值grad_threshold=0,其中D和E均为预设的大于0的阈值。8.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括:取com
j
及其相关数据,其中com
j
j∈[1,N],表示将公司按rel
i
降序排列后的第j个公司;如果N>F且相关度值rel
j
小于相关度动态阈值grad_threshold,则com
j
不是主要关联公司,转到下下步,否则转到下一步,其中F为预设的大于0的阈值;如果andandand relj>abs_thresh,则comj是主要关联公司,转到下一步,其中,abs_thresh是相关度过滤绝对阈值,G、H、I和J均为预设的大于0的阈值;如果j等于N,转到下一步,否则j=j+1,转到第一步;返回主要关联公司结果。9.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司之前,还包括:根据com
i
的名称词在所述新闻数据中出现的次数word_cnt
i
来过滤非主要关联公司,确定所有主要关联公司。10.如权利要求9所述的判断新闻中主要关联公司的方法,其特征在于,所述根据com
i
的名称词在所述新闻数据中出现的次数word_cnt
i
来过滤非主要关联公司,确定所有主要关联公司,包括:取com
j
及其相关数据,其中com
j
j∈[1,N],表示将公司按rel
i
降序排列后的第j个公司;如果N>F andword_cnt
k
=word_cnt
l
,转到下一步,否则转到下下步,其中F为预设的大于0的阈值;如果com
j
没有在所述新闻数据的标题中出现并且rel
j
<K or word_cnt
j
=L,则com
j
不是主要关联公司,转到最后第二步,否则转到下一步,其中K和L为预设的大于0的阈值;如果com
j
在所述新闻数据的标题中出现但没有在所述新闻数据的正文中出现,则com
j
不是主要关联公司,转到最后第二步,否则转到下一步;如果com
j
在所述新闻数据的标题中出现,也在所述新闻数据的正文中出现,则com
j
是主要关联公司,转到最后第二步,否则转到根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步...

【专利技术属性】
技术研发人员:贾宁
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1