【技术实现步骤摘要】
判断新闻中主要关联公司的方法及相关设备
[0001]本专利技术属于金融财经
,具体涉及一种判断新闻中主要关联公司的方法及相关设备。
技术介绍
[0002]在金融财经领域中,财经新闻是重要的信息来源,因此对财经新闻的分析是金融科技领域的一项基础性工作。在对财经新闻的各种分析中,最重要的一项是提取出新闻中提及的公司。在多数情况下,新闻中会提及不止一家公司,有些公司和新闻的相关度较低,而有些公司和新闻的关联程度较高,新闻内容主要围绕这些公司展开,这些高关联公司通常也是后续分析所关注的对象。
[0003]目前对新闻中主要关联公司进行判定的方法不多,有些网站对于公司和新闻的关联性不做定量分析,如东方财富网站上的公司相关资讯,只要新闻中出现了公司名称,就把新闻和公司关联起来。有些网站和数据服务如路透的新闻服务API会提供公司和新闻的相关度,用户可通过设定相关度阈值来提取出新闻的主要关联公司。
[0004]但是以相关度和阈值的方法来确定新闻中主要关联公司的方法存在判定不准确的问题。由于新闻的长度不同,新闻中出现公司的数量、位置不同,导致对于不同的新闻,公司相关度的分布是不同的,因此使用一个固定的阈值判定是否主要关联公司可能会发生错误,导致输出了多余的公司或漏掉了主要关联公司。即使把阈值和新闻长度关联起来形成动态阈值,效果也不理想,因为长度相同的新闻中公司的分布相差也很明显,计算出的公司相关度也有明显差异。所以简单的和新闻长度相关的动态阈值也会存在判定不准确的问题。
[0005]另外,以相关度和阈值的方 ...
【技术保护点】
【技术特征摘要】
1.一种判断新闻中主要关联公司的方法,其特征在于,包括如下步骤:获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作com
i
i∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;输出主要关联公司结果。2.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述相关度值rel
i
为根据所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
计算得到,所述相关度动态阈值grad_threshold为根据rel
i
计算得到。3.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、com
i
的名称词在所述新闻数据中出现的句子数量sen_cnt
i
和com
i
的名称词在所述新闻数据中出现的自然段数量para_cnt
i
的统计方法为:以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;统计所述新闻数据中的自然段总数,记为PARA_CNT;统计所述新闻数据中出现com
i
的名称词的句子数量,记为sen_cnt
i
;统计所述新闻数据中出现com
i
的名称词的自然段数量,记为para_cnt
i
。4.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中的自然段总数时,所述新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。5.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中出现com
i
的名称词的自然段数量时,如果com
i
在标题中出现,para_cnt
i
+=C,其中C为预设的大于0的系数。6.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,采用如下公式计算所有公司和新闻数据的相关度值:其中,A和B为预设的大于0的系数,且A+B=1。7.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,所述相关度动态阈值grad_threshold为根据rel
i
计算得到,包括:将公司按rel
i
降序排列,得到com
j
j∈[1,N],表示排序后的第j个公司;计算相邻公司间的相关度下降梯度,grad
j
表示com
j
和com
j+1
之间的下降梯度,grad
j
的计算公式为:当存在k使得rel
k
>D and grad
k
≥E,记录所述相关度动态阈值grad_threshold=
rel
k
,如果不存在这样的k,则所述相关度动态阈值grad_threshold=0,其中D和E均为预设的大于0的阈值。8.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括:取com
j
及其相关数据,其中com
j
j∈[1,N],表示将公司按rel
i
降序排列后的第j个公司;如果N>F且相关度值rel
j
小于相关度动态阈值grad_threshold,则com
j
不是主要关联公司,转到下下步,否则转到下一步,其中F为预设的大于0的阈值;如果andandand relj>abs_thresh,则comj是主要关联公司,转到下一步,其中,abs_thresh是相关度过滤绝对阈值,G、H、I和J均为预设的大于0的阈值;如果j等于N,转到下一步,否则j=j+1,转到第一步;返回主要关联公司结果。9.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司之前,还包括:根据com
i
的名称词在所述新闻数据中出现的次数word_cnt
i
来过滤非主要关联公司,确定所有主要关联公司。10.如权利要求9所述的判断新闻中主要关联公司的方法,其特征在于,所述根据com
i
的名称词在所述新闻数据中出现的次数word_cnt
i
来过滤非主要关联公司,确定所有主要关联公司,包括:取com
j
及其相关数据,其中com
j
j∈[1,N],表示将公司按rel
i
降序排列后的第j个公司;如果N>F andword_cnt
k
=word_cnt
l
,转到下一步,否则转到下下步,其中F为预设的大于0的阈值;如果com
j
没有在所述新闻数据的标题中出现并且rel
j
<K or word_cnt
j
=L,则com
j
不是主要关联公司,转到最后第二步,否则转到下一步,其中K和L为预设的大于0的阈值;如果com
j
在所述新闻数据的标题中出现但没有在所述新闻数据的正文中出现,则com
j
不是主要关联公司,转到最后第二步,否则转到下一步;如果com
j
在所述新闻数据的标题中出现,也在所述新闻数据的正文中出现,则com
j
是主要关联公司,转到最后第二步,否则转到根据公司com
i
与所述新闻数据的相关度值rel
i
和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步...
【专利技术属性】
技术研发人员:贾宁,
申请(专利权)人:数库上海科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。