The invention belongs to the field of machine learning technology, in particular to a crack detection method based on the author's writing style. Writing style refers to the unique, distinct and hidden style and style of literary works. It is influenced not only by the writer's subjective writing habits, but also by the objective geographical location, language, subject matter, nationality and creation era. The style crack represents the position where the writing style changes. The recognition of the style crack is realized by the style feature extraction, which considers the style features from the aspects of words, sentences and emotions. The invention uses 7 representative text features, combines the multi feature fusion and machine learning algorithm, and determines the position of the style crack based on the sliding window. Writing style is the formation of a person's writing habit. Through the invention, the originality of an article can be determined, and the effectiveness of the method has been proved by experiments.
【技术实现步骤摘要】
一种基于作者写作风格的裂缝检测方法
本专利技术属于机器学习
,具体涉及一种基于作者写作风格的裂缝检测方法。
技术介绍
风格特征提取最早是对单特征进行研究,随着单特征不能满足实验结果,多特征融合也应运而生。近年来机器学习和神经网络的发展,把机器学习和神经网络的算法引入到风格提取和作者识别中,并且取得了好的结果。由于中文的多变和困难,所以在对中文的风格提取上,比外文的风格提取明显更加困难,中文需要考虑到分词系统的准确性,句子结构也比较复杂。尽管中文的风格提取比外文更困难,但对于风格的研究仍然同样受到了广泛的关注。文本分割技术对一个文章根据文章的某些特征把文章分成几个独立的片段。文本分段技术在文本预处理,自然语言处理中占用很重要的比重。由于文本分段的目的不同,所以使用的方法也有所不同。现有的分割技术大致可分为基于词汇聚集的分割方法,基于语言特征的分割方法,基于概率统计的分割方法。
技术实现思路
本专利技术的目的是提供一种基于作者写作风格的裂缝检测方法。本专利技术的目的是这样实现的:一种基于作者写作风格的裂缝检测方法,具体步骤如下:(1)预处理;(2)单风格特征提取;(3)参数权重法确定风格裂缝;(4)基于风格特征的风格聚裂,判断风格裂缝。所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后,进行标点过滤。所述的单风格特征提取包括单维特征和多维特征;单维特征包括词长度、平均句子长度、情感偏向,多维特征包括词汇特征、符号特 ...
【技术保护点】
1.一种基于作者写作风格的裂缝检测方法,其特征在于:具体步骤如下:/n(1)预处理;/n(2)单风格特征提取;/n(3)参数权重法确定风格裂缝;/n(4)基于风格特征的风格聚裂,判断风格裂缝。/n
【技术特征摘要】
1.一种基于作者写作风格的裂缝检测方法,其特征在于:具体步骤如下:
(1)预处理;
(2)单风格特征提取;
(3)参数权重法确定风格裂缝;
(4)基于风格特征的风格聚裂,判断风格裂缝。
2.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后,进行标点过滤。
3.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的单风格特征提取包括单维特征和多维特征;单维特征包括词长度、平均句子长度、情感偏向,多维特征包括词汇特征、符号特征、同义词、虚词。
4.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的参数权重法是通过对所有参数权重进行遍历,对参数进行...
【专利技术属性】
技术研发人员:刘刚,王凯,李涛,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。