System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及新型电力系统特征提取领域,特别是涉及一种新型电力系统特征提取方法、设备、介质及产品。
技术介绍
1、在当今数字化和智能化飞速发展的时代,自然语言处理(natural languageprocessing,nlp)技术在各个领域得到了广泛应用。尤其在电力系统中,随着电力设备和电网运行数据的激增,如何高效、准确地从海量数据信息中提取有价值的信息,识别新型电力系统的发展特征成为一个关键问题。传统的电力系统特征提取方法主要依赖于人工规则和统计模型,这些方法不仅耗时费力,而且难以适应复杂多变的电力系统环境。
2、随着人工智能技术的不断进步,特别是深度学习和语义识别技术的发展,基于nlp的特征提取方法逐渐成为研究热点。文本处理作为nlp中的重要环节,关系着特征提取的准确率与精准性。与英文相比,中文是高度依赖语言环境的语言,且没有明确的分词界限。由于汉字本身的多义性和组合的灵活性,与英文相比中文更容易发生语义模糊的情况,从而使提取的与电力系统相关的文本特征不准确,导致无法直接用于智能分析的学习过程。
技术实现思路
1、本申请的目的是提供一种新型电力系统特征提取方法、设备、介质及产品,以提高新型电力系统特征提取的准确性。
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种新型电力系统特征提取方法,包括:
4、获取新型电力系统的网站源码和政策性文件;
5、提取所述网站源码和所述政策性文件的文本特征,并构建文
6、对所述文本特征数据库进行数据清洗,得到数据清洗后的文本特征数据库;
7、利用中文分词库jieba,结合新型电力系统领域的白名单词库和黑名单词库对所述数据清洗后的文本特征数据库中的文本特征进行分词处理,并统计词频,得到分词后的文本特征数据库;所述白名单词库为在所述中文分词库jieba自带词典基础上,添加自定义词典的词库;所述自定义词典包括电力行业专业词汇;所述黑名单词库为在所述中文分词库jieba自带词典基础上,添加停用词语料库的词库;所述停用词语料库包括乱序字符和无意义字符;所述乱序字符包括空格、标点符号、数字和特殊字符;所述无意义字符包括是、一种和等;
8、根据数据来源对所述分词后的文本特征数据库中的词汇进行分类,得到分类后的文本特征数据库;所述数据来源包括能源政策、能源行业信息和新闻报道;所述分类后的文本特征数据库包括能源政策类词汇、能源行业信息类词汇和新闻报道类词汇;
9、利用tf-idf算法分别提取所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇;
10、基于数据来源比例,确定所述高频特征词汇的加权频率;
11、对所述高频特征词汇的加权频率进行降序排序,将前预设个数的所述高频特征词汇作为所述新型电力系统的发展特征。
12、可选地,提取所述网站源码的文本特征,具体包括:
13、构建网络爬虫模型;
14、基于所述网站源码,利用所述网络爬虫模型,提取目标网页;
15、利用beautiful soup库提取所述目标网页中的文本特征。
16、可选地,提取所述政策性文件的文本特征,具体包括:
17、基于pymupdf库中的fitz库提取所述政策性文件的文本内容;
18、利用文本提取函数和翻页函数提取所述文本内容的文本特征。
19、可选地,对所述文本特征数据库进行数据清洗,得到数据清洗后的文本特征数据库,具体包括:
20、去除所述文本特征数据库中的所述乱序字符;
21、去除所述文本特征数据库中的所述无意义字符;
22、去除所述文本特征数据库中的文本空白部分,得到数据清洗后的文本特征数据库。
23、可选地,利用tf-idf算法分别提取所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇,具体包括:
24、分别计算所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中每个词汇的词频;
25、分别计算所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中每个词汇的逆文档频率;
26、根据所述词频和所述逆文档频率,利用tf-idf算法,确定所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇。
27、可选地,根据所述词频和所述逆文档频率,利用tf-idf算法,确定所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇,具体包括:
28、利用公式tf-idf=tfij·idfij确定每个词汇的tf-idf值;其中,tfij为词频;idfij为逆文本频率;
29、所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中所述tf-idf值大于设定阈值的词汇,得到高频特征词汇。
30、可选地,基于数据来源比例,确定所述高频特征词汇的加权频率,具体包括:
31、利用公式frei=wi·vi确定所述高频特征词汇的加权频率;其中,frei为高频特征词汇的加权频率;wi为高频特征词汇的词频;vi为在某一数据来源下的高频特征词汇的权重值,所述权重值是根据数据来源比例确定的。
32、第二方面,本申请提供了一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述中任一项所述的新型电力系统特征提取方法。
33、第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述中任一项所述的新型电力系统特征提取方法。
34、第四方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述中任一项所述的新型电力系统特征提取方法。
35、根据本申请提供的具体实施例,本申请公开了以下技术效果:
36、本申请提供了一种新型电力系统特征提取方法、设备、介质及产品,基于jieba中文分词库对文本特征数据库进行分词,对多个数据来源下的新型电力系统数据库进行权重设定,并利用tf-idf算法对分词结果进行深入分析和处理,从而实现更加高效和准确的特征提取。本申请将有助于深化政府、公司及能源电力相关企业对新型电力系统发展与国企改革创新的认识,提升统筹规划及管理能力,为推动电力行业的智能化和可持续发展提供技术支持。
本文档来自技高网...【技术保护点】
1.一种新型电力系统特征提取方法,其特征在于,包括:
2.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,提取所述网站源码的文本特征,具体包括:
3.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,提取所述政策性文件的文本特征,具体包括:
4.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,对所述文本特征数据库进行数据清洗,得到数据清洗后的文本特征数据库,具体包括:
5.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,利用TF-IDF算法分别提取所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇,具体包括:
6.根据权利要求5所述的新型电力系统特征提取方法,其特征在于,根据所述词频和所述逆文档频率,利用TF-IDF算法,确定所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇,具体包括:
7.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,基于数据来源比例,确定所述高频特征词汇的加权频率,具体包括:
...【技术特征摘要】
1.一种新型电力系统特征提取方法,其特征在于,包括:
2.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,提取所述网站源码的文本特征,具体包括:
3.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,提取所述政策性文件的文本特征,具体包括:
4.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,对所述文本特征数据库进行数据清洗,得到数据清洗后的文本特征数据库,具体包括:
5.根据权利要求1所述的新型电力系统特征提取方法,其特征在于,利用tf-idf算法分别提取所述能源政策类词汇、所述能源行业信息类词汇和所述新闻报道类词汇中的高频特征词汇,具体包括:
6.根据权利要求5所述的新型电力系统特征提取方法,其特征在于,根据所述词频和所述逆文档频率,利用tf-idf...
【专利技术属性】
技术研发人员:陈衡,王奕楠,靳夏宁,胡丹蕾,姜世公,张艳,刘明红,刘灵爽,
申请(专利权)人:华北电力大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。