System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及基于机器学习的投资者对esg关注度的量化评估方法及系统。
技术介绍
1、随着全球对环境保护和减污降碳意识的提升,机构投资者对公司的环境、社会和治理(esg)表现日益重视,特别是在重污染行业。为了衡量机构投资者对esg的关注程度,目前存在四种主要方法。第一种方法是通过问卷调查直接了解机构投资者的esg关注情况。第二种方法是利用机构投资者投资组合中公司的esg评级的加权平均数作为衡量指标。第三种方法通过分析股东提案来评估机构投资者的esg关注,这在国外较为常见。第四种方法则是通过分析机构投资者实地调研的内容来衡量其对esg的关注。
2、然而,这些现有的衡量方法都存在不同程度的局限性和不足。问卷调查方法虽然直接,但存在衡量不准确、成本高昂的问题,且覆盖范围有限,样本代表性不足,回答质量也难以保证。运用esg评级加权平均数的方法则受到评级不统一的影响,不同评级机构的标准和结果差异较大,导致衡量结果的不一致性。股东提案分析方法在国外较为可行,但在国内由于数据难以获取,因此实施难度较大。而通过分析机构投资者实地调研内容的方法,则存在esg相关词确定主观性强、效率低的问题,因为专家人为确定的esg相关词可能无法全面、准确地反映调研内容中的esg信息。
技术实现思路
1、本专利技术的目的就在于提供基于机器学习的投资者对esg关注度的量化评估方法及系统,以解决传统的衡量方法往往依赖于专家人为确定的esg相关词,存在主观性强、效率低等问题。
3、第一方面、本专利技术提出了基于机器学习的投资者对esg关注度的量化评估方法,所述方法包括:
4、s1、收集esg报告并解析其文本内容,获取esg报告的文本数据;
5、s2、对所述文本数据进行预处理,得到待处理语料库;
6、s3、基于word2vec模型对所述待处理语料库进行词嵌入,以获取待处理语料库中所有词语的向量表示,形成向量数据集;其中,所述word2vec模型采用基于负采样的skip-gram模型进行训练得到;
7、s4、定义代表esg报告中对应维度的种子词,利用预先训练的word2vec模型识别与所述种子词相近的词语以扩展esg相关词,得到esg相关词词典;
8、s5、根据投资者在设定问答场景下esg相关词出现的频数确定投资者对esg关注度。
9、进一步的,步骤s2包括:
10、s2.1、对所述文本数据进行数据清洗;
11、s2.2、利用jieba分词工具对清洗后的文本数据进行分词,并删除特殊字符、数字和标点符号,形成待处理语料库。
12、进一步的,步骤s3包括:
13、s3.1、调用python库确认输入输出,以初始化word2vec模型参数,并设定上下文窗口大小、词向量维度、以及语料库的迭代次数,选择skip-gram模型;
14、s3.2、定义skip-gram模型结构如下:
15、(1)输入层:将待处理语料库中的每个词表示为维数为词汇表大小维数的one-hot行向量;
16、(2)隐藏层:通过维的参数矩阵,将输入层的one-hot向量投射为空间的,其中对应w中与对应的行向量;
17、(3)输出层:通过维的参数矩阵,接收隐藏层的输出作为输入,预测待处理语料库中每个单词出现在上下文的原始概率,并通过softmax激活函数得到真实概率分布,中与对应的列向量表示为;
18、s3.3、训练模型:采用负采样技术优化所述skip-gram模型,优化目标函数为:
19、;
20、;
21、其中是正样本集,是负样本集,表示中心词的相邻词来自正样本集,表示中心词的相邻词来自负样本集;
22、使用gensim库,根据步骤s3.1中设定的参数和所述优化目标函数,遍历待处理语料库进行迭代训练,直至达到设定的迭代次数;
23、s3.4、获取词向量表示,并保存模型:训练完成后,将待处理语料库中的每个词转换为设定维数的向量表示,形成向量数据集,并保存训练好的模型。
24、进一步的,步骤s4包括:
25、s4.1、定义代表esg中环境、社会、治理的维度的种子词,运用步骤s3.4中预先训练好的word2vec模型,对于每个esg维度中的任意种子词,生成词向量;
26、s4.2、计算每个esg维度的平均向量,计算与所述向量数据集中每个词向量之间的余弦相似度,为每个维度选择最相似的设定数量的词作为esg相关词;
27、s4.3、将所述esg相关词添加到所述向量数据集中得到esg相关词词典。
28、进一步的,步骤s5包括:
29、基于所述esg相关词词典,计算投资者在设定问答场景下对esg的关注,如下式:
30、;
31、其中表示在第年时公司的投资者对esg的关注程度,表示公司第年的esg报告中esg相关词的频数。
32、第二方面、本专利技术提出了基于机器学习的投资者对esg关注度的量化评估系统,应用于执行上述任一项所述的评估方法,所述系统包括:
33、数据收集模块,用于收集esg报告并解析其文本内容,获取esg报告的文本数据;
34、预处理模块,用于对所述文本数据进行预处理,得到待处理语料库;
35、词嵌入模块,用于基于word2vec模型对所述待处理语料库进行词嵌入,以获取待处理语料库中所有词语的向量表示,形成向量数据集;其中,所述word2vec模型采用基于负采样的skip-gram模型进行训练得到;
36、词典构建模块,用于定义代表esg报告中对应维度的种子词,利用预先训练的word2vec模型识别与所述种子词相近的词语以扩展esg相关词,得到esg相关词词典;
37、计算模块,用于根据投资者在设定问答场景下esg相关词出现的频数确定投资者对esg关注度。
38、进一步的,所述预处理模块还包括分词单元和停用词删除单元,分词单元用于利用jieba分词工具进行分词,停用词删除单元用于删除特殊字符、数字和标点符号,形成待处理语料库。
39、进一步的,所述词嵌入模块包括:
40、初始化单元,用于调用python库确认输入输出,以初始化word2vec模型参数,并设定上下文窗口大小、词向量维度、以及语料库的迭代次数,选择skip-gram模型;
41、模型构建单元,用于构建skip-gram模型结构,包括输入层、隐藏层和输出层,其中输入层将待处理语料库中的每个词表示为维数为词汇表大小的one-hot行向量,隐藏层通过参数矩阵将输入层的one-hot向量投射为空间向量,输出层通过另一参数矩阵接收隐藏层的输出作为输入,预测待处理语料库中每个单词出现在给定中心词上下文中的概率本文档来自技高网...
【技术保护点】
1.基于机器学习的投资者对ESG关注度的量化评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于机器学习的投资者对ESG关注度的量化评估方法,其特征在于,步骤S2包括:
3.根据权利要求1所述的基于机器学习的投资者对ESG关注度的量化评估方法,其特征在于,步骤S3包括:
4.根据权利要求3所述的基于机器学习的投资者对ESG关注度的量化评估方法,其特征在于,步骤S4包括:
5.根据权利要求1所述的基于机器学习的投资者对ESG关注度的量化评估方法,其特征在于,步骤S5包括:
6.基于机器学习的投资者对ESG关注度的量化评估系统,应用于执行权利要求1-5任一项所述的评估方法,其特征在于,所述系统包括:
7.根据权利要求6所述的基于机器学习的投资者对ESG关注度的量化评估系统,其特征在于,所述预处理模块还包括分词单元和停用词删除单元,分词单元用于利用Jieba分词工具进行分词,停用词删除单元用于删除特殊字符、数字和标点符号,形成待处理语料库。
8.根据权利要求6所述的基于机器学习的投资者对E
9.根据权利要求8所述的基于机器学习的投资者对ESG关注度的量化评估系统,其特征在于,所述词典构建模块包括:
...【技术特征摘要】
1.基于机器学习的投资者对esg关注度的量化评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于机器学习的投资者对esg关注度的量化评估方法,其特征在于,步骤s2包括:
3.根据权利要求1所述的基于机器学习的投资者对esg关注度的量化评估方法,其特征在于,步骤s3包括:
4.根据权利要求3所述的基于机器学习的投资者对esg关注度的量化评估方法,其特征在于,步骤s4包括:
5.根据权利要求1所述的基于机器学习的投资者对esg关注度的量化评估方法,其特征在于,步骤s5包括:
6.基于机器学习的投资者对esg关注度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。