本发明专利技术公开一种基于时间序列的作品作者识别方法,首先根据Zipf定律将文本数据转化为时间序列数据;然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取,根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维;最后通过XGBoost、LightGBM及SVM机器学习法实现Stacking模型融合,根据提取的文本特征实现文本的作者预测,完成文本的作者归属判定。该基于时间序列的作品作者识别方法根据作者已有的作品推断出其他作品是否也是该作者的作品。否也是该作者的作品。否也是该作者的作品。
【技术实现步骤摘要】
基于时间序列的作品作者识别方法
[0001]本专利技术涉及计算机的
,尤其是一种基于时间序列的作品作者识别方法。
技术介绍
[0002]中国专利(申请号CN201310043297.5、申请日20130202、公开号CN103106192B、公开日20160203)公开了一种文学作品作者识别方法及装置,介绍了通过对输入的文学作品进行分词,得到分词词组及其对应的目标出现频率,根据目标出现频率计算输入的文学作品的信息熵,获取与目标作者对应的作者样本作品及作者样本作品的信息熵,通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。但是该专利并没有从时间序列的角度提取文本特征,文本的时间特征可能会被忽略。
技术实现思路
[0003]本专利技术要解决的技术问题是:为了解决上述
技术介绍
中存在的问题,提供一种基于时间序列的作品作者识别方法,实现对文本的作者身份判定,可以根据作者已有的作品,能够推断出其他作品是否也是该作者的作品。
[0004]本专利技术解决其技术问题所采用的技术方案是:一种基于时间序列的作品作者识别方法,具体步骤如下:步骤一、首先根据Zipf定律将文本数据转化为时间序列数据;步骤二、然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取,根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维,该过程从时间序列的角度对文本进行特征选择与特征降维;步骤三、最后通过XGBoost机器学习法、LightGBM机器学习法以及SVM机器学习法实现Stacking模型融合,根据提取的文本特征实现文本的作者预测,完成文本的作者归属判定。
[0005]进一步具体地限定,上述技术方案中,在步骤一中,根据Zipf定律将文本数据内单词出现的频率按由大到小的顺序排列,依次给定序号,并将这些序号对应替换文本数据中的单词,便可将文本数据转化为时间序列数据。
[0006]进一步具体地限定,上述技术方案中,在步骤一中,所述的文本数据是从网站上获取的数据集,数据集中包括若干位作者的若干篇作品,将这若干篇作品制作成样本,并分别打上相应标签,按随机分配的方法分成两部分,其中一部分作品分配为训练集,另外一部分作品分配为测试集。
[0007]进一步具体地限定,上述技术方案中,在步骤二中,所述的特征选择技术是根据相应的标签选择具有解释性和重要性的特征。
[0008]进一步具体地限定,上述技术方案中,在步骤二中,所述的主成分分析法是挑选最能代表文本特点的特征。
[0009]进一步具体地限定,上述技术方案中,在步骤三中,XGBoost和LightGBM作为初级
学习器,SVM作为次级学习器,使用训练集分别训练两个初级学习器,做交叉验证,将这两个初级学习器输出的结果拼接生成次级训练集,然后使用该次级训练集训练次级学习器,将训练好的模型预测测试集得到结果。
[0010]本专利技术的有益效果是:本专利技术提供的基于时间序列的作品作者识别方法,从时间序列的角度提取文本特征,实现对文本的作者身份判定,可以根据作者已有的作品,能够推断出其他作品是否也是该作者的作品。
附图说明
[0011]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是文本特征提取及文本特征降维的流程图;图2是Stacking模型融合的示意图。
具体实施方式
[0013]为了使本专利技术所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0014]见图1和图2,本专利技术的一种基于时间序列的作品作者识别方法,具体步骤如下:步骤一、首先根据Zipf定律将文本数据内单词出现的频率按由大到小的顺序排列,依次给定序号,并将这些序号对应替换文本数据中的单词,便可将文本数据转化为时间序列数据。其中,序号给定的方式是:出现频率最大的单词给定序号1,出现频率第二大的单词给定序号2,依次类推。
[0015]需要说明的是:“将这些序号对应替换文本数据中的单词,便可将文本数据转化为时间序列数据”,前半句说明的是设定序号,后半句说明的是用序号替换文本。例如将“I love you , but you don
’
t love me
ꢀ”
这段话中的单词分别设定序号,“you
”ꢀ
为1,“love
”ꢀ
为2,“but”为3,“me”为4,“don
’
t”为5,“,”为6,“I
”ꢀ
为7 ,则这段话由序号替换成 721631524。
[0016]文本数据是从网站上获取的数据集,数据集中包括若干位作者的若干篇作品,将这若干篇作品制作成样本,并分别打上相应标签,按随机分配的方法分成两部分,其中一部分作品分配为训练集,另外一部分作品分配为测试集。其中,标签的设置方式是:在若干作者中,属于作者一的作品标签为0,属于作者二的作品标签为1,依次类推。
[0017]Zipf定律将文本数据内单词出现的频率按由大到小的顺序排列,那么名次为r的单词出现的频率服从幂律关系:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,P指频率,a指特定常数。
[0018]其表明在文本数据中,只有极少数的单词被经常使用,而绝大多数的单词很少被使用。
[0019]步骤二、然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取,根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维,该过程从时间序列的角度对文本进行特征选择与特征降维。
[0020]特征选择技术是根据相应的标签选择具有解释性和重要性的特征。主成分分析法是挑选最能代表文本特点的特征。
[0021]特征提取:Tsfresh是基于可伸缩假设检验的时间序列特征提取工具,该工具包含多种特征提取方法和鲁棒特征选择算法,Tsfresh可以自动地从时间序列中提取几千个特征,这些特征描述了时间序列的基本特征,如峰值数量、平均值或最大值,或更复杂的特征,如时间反转对称性统计量等。文本转化为时间序列后,为一维的时间数据,很难表示文本的一些特点,因此通过Tsfresh可以提取能够表达文本特点的特征,这些特征可用于构建机器学习模型。
[0022]峰值是指一个周期内时间序列最高值或最低值到平均值之间差的值。
[0023]平均值为时间序列的每个点的值除以点的总数,具体公式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,mean表示平均值,i表示第i个时间点,t表示时间点的值,S指的是时间序列的时间点的个数。
[0024]最大值为时间序列中点本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于时间序列的作品作者识别方法,其特征在于,具体步骤如下:步骤一、首先根据Zipf定律将文本数据转化为时间序列数据;步骤二、然后通过Tsfresh对转化为时间序列的样本数据进行时域特征提取,根据Tsfresh的特征选择技术及主成分分析法对文本特征数据进行降维,该过程从时间序列的角度对文本进行特征选择与特征降维;步骤三、最后通过XGBoost机器学习法、LightGBM机器学习法以及SVM机器学习法实现Stacking模型融合,根据提取的文本特征实现文本的作者预测,完成文本的作者归属判定。2.根据权利要求1所述的基于时间序列的作品作者识别方法,其特征在于:在步骤一中,根据Zipf定律将文本数据内单词出现的频率按由大到小的顺序排列,依次给定序号,并将这些序号对应替换文本数据中的单词,便可将文本数据转化为时间序列数据。3.根据权利要求1或2所述的基于时间序列的作品作者识别方法,其特征在于:在步骤...
【专利技术属性】
技术研发人员:李泽朋,潘正颐,侯大为,马元巍,顾徐波,张焱,
申请(专利权)人:常州微亿智造科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。