基于时间序列的作品作者识别方法技术

技术编号：28118582 阅读：26 留言：0更新日期：2021-04-19 11:21

本发明专利技术公开一种基于时间序列的作品作者识别方法，首先根据Zipf定律将文本数据转化为时间序列数据；然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取，根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维；最后通过XGBoost、LightGBM及SVM机器学习法实现Stacking模型融合，根据提取的文本特征实现文本的作者预测，完成文本的作者归属判定。该基于时间序列的作品作者识别方法根据作者已有的作品推断出其他作品是否也是该作者的作品。否也是该作者的作品。否也是该作者的作品。

全部详细技术资料下载

【技术实现步骤摘要】
基于时间序列的作品作者识别方法

[0001]本专利技术涉及计算机的
，尤其是一种基于时间序列的作品作者识别方法。

技术介绍

[0002]中国专利（申请号CN201310043297.5、申请日20130202、公开号CN103106192B、公开日20160203）公开了一种文学作品作者识别方法及装置，介绍了通过对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率，根据目标出现频率计算输入的文学作品的信息熵，获取与目标作者对应的作者样本作品及作者样本作品的信息熵，通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。但是该专利并没有从时间序列的角度提取文本特征，文本的时间特征可能会被忽略。

技术实现思路

[0003]本专利技术要解决的技术问题是：为了解决上述
技术介绍
中存在的问题，提供一种基于时间序列的作品作者识别方法，实现对文本的作者身份判定，可以根据作者已有的作品，能够推断出其他作品是否也是该作者的作品。
[0004]本专利技术解决其技术问题所采用的技术方案是：一种基于时间序列的作品作者识别方法，具体步骤如下：步骤一、首先根据Zipf定律将文本数据转化为时间序列数据；步骤二、然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取，根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维，该过程从时间序列的角度对文本进行特征选择与特征降维；步骤三、最后通过XGBoost机器学习法、LightGBM机器学习法以及SVM机器...

【技术保护点】

【技术特征摘要】
1.一种基于时间序列的作品作者识别方法，其特征在于，具体步骤如下：步骤一、首先根据Zipf定律将文本数据转化为时间序列数据；步骤二、然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取，根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维，该过程从时间序列的角度对文本进行特征选择与特征降维；步骤三、最后通过XGBoost机器学习法、LightGBM机器学习法以及SVM机器学习法实现Stacking模型融合，根据提取的文本特征实现文本的作者预测，完成文本的作者归属判定。2.根据权利要求1所述的基于时间序列的作品作者识别方法，其特征在于：在步骤一中，根据Zipf定律将文本数据内单词出现的频率按由大到小的顺序排列，依次给定序号，并将这些序号对应替换文本数据中的单词，便可将文本数据转化为时间序列数据。3.根据权利要求1或2所述的基于时间序列的作品作者识别方法，其特征在于：在步骤...

【专利技术属性】
技术研发人员：李泽朋，潘正颐，侯大为，马元巍，顾徐波，张焱，
申请(专利权)人：常州微亿智造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人