一种基于作者写作风格的裂缝检测方法技术

技术编号：22594884 阅读：33 留言：0更新日期：2019-11-20 11:10

本发明专利技术属于机器学习技术领域，具体涉及一种基于作者写作风格的裂缝检测方法。写作风格指的是文学作品上表现出来自己独有的、鲜明的、隐藏的风貌和格调。它受到作家主观写作习惯的影响，也受到客观的地理位置、语言、题材、民族、创作时代的影响。风格裂缝表示写作风格发生转变的位置，风格裂缝的识别是通过风格特征提取来实现的，分别从词、句、情感多方面的考虑风格特征，本发明专利技术使用了7个具有代表性的文本特征，利用多特征融合与机器学习算法相结合，以滑动窗口为基准，确定风格裂缝位置。写作风格是一个人写作习惯的养成，通过该发明专利技术可以对一篇文章的原创性进行判定，并经过实验证实了该方法的有效性。

A crack detection method based on the author's writing style

The invention belongs to the field of machine learning technology, in particular to a crack detection method based on the author's writing style. Writing style refers to the unique, distinct and hidden style and style of literary works. It is influenced not only by the writer's subjective writing habits, but also by the objective geographical location, language, subject matter, nationality and creation era. The style crack represents the position where the writing style changes. The recognition of the style crack is realized by the style feature extraction, which considers the style features from the aspects of words, sentences and emotions. The invention uses 7 representative text features, combines the multi feature fusion and machine learning algorithm, and determines the position of the style crack based on the sliding window. Writing style is the formation of a person's writing habit. Through the invention, the originality of an article can be determined, and the effectiveness of the method has been proved by experiments.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于作者写作风格的裂缝检测方法
本专利技术属于机器学习
，具体涉及一种基于作者写作风格的裂缝检测方法。
技术介绍
风格特征提取最早是对单特征进行研究，随着单特征不能满足实验结果，多特征融合也应运而生。近年来机器学习和神经网络的发展，把机器学习和神经网络的算法引入到风格提取和作者识别中，并且取得了好的结果。由于中文的多变和困难，所以在对中文的风格提取上，比外文的风格提取明显更加困难，中文需要考虑到分词系统的准确性，句子结构也比较复杂。尽管中文的风格提取比外文更困难，但对于风格的研究仍然同样受到了广泛的关注。文本分割技术对一个文章根据文章的某些特征把文章分成几个独立的片段。文本分段技术在文本预处理，自然语言处理中占用很重要的比重。由于文本分段的目的不同，所以使用的方法也有所不同。现有的分割技术大致可分为基于词汇聚集的分割方法，基于语言特征的分割方法，基于概率统计的分割方法。
技术实现思路
本专利技术的目的是提供一种基于作者写作风格的裂缝检测方法。本专利技术的目的是这样实现的：一种基于作者写作风格的裂缝检测方法，具体步骤如下：(1)预处理；(2)单风格特征提取；(3)参数权重法确定风格裂缝；(4)基于风格特征的风格聚裂，判断风格裂缝。所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后，进行标点过滤。所述的单风格特征提取包括单维特征和多维特征；单维特征包括词长度、平均句子长度、情感偏向，多维特征包括词汇特征、符号特...

【技术保护点】
1.一种基于作者写作风格的裂缝检测方法，其特征在于：具体步骤如下：/n(1)预处理；/n(2)单风格特征提取；/n(3)参数权重法确定风格裂缝；/n(4)基于风格特征的风格聚裂，判断风格裂缝。/n

【技术特征摘要】
1.一种基于作者写作风格的裂缝检测方法，其特征在于：具体步骤如下：
(1)预处理；
(2)单风格特征提取；
(3)参数权重法确定风格裂缝；
(4)基于风格特征的风格聚裂，判断风格裂缝。

2.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后，进行标点过滤。

3.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的单风格特征提取包括单维特征和多维特征；单维特征包括词长度、平均句子长度、情感偏向，多维特征包括词汇特征、符号特征、同义词、虚词。

4.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的参数权重法是通过对所有参数权重进行遍历，对参数进行...

【专利技术属性】
技术研发人员：刘刚，王凯，李涛，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人