一种基于作者写作风格的裂缝检测方法技术

技术编号:22594884 阅读:33 留言:0更新日期:2019-11-20 11:10
本发明专利技术属于机器学习技术领域,具体涉及一种基于作者写作风格的裂缝检测方法。写作风格指的是文学作品上表现出来自己独有的、鲜明的、隐藏的风貌和格调。它受到作家主观写作习惯的影响,也受到客观的地理位置、语言、题材、民族、创作时代的影响。风格裂缝表示写作风格发生转变的位置,风格裂缝的识别是通过风格特征提取来实现的,分别从词、句、情感多方面的考虑风格特征,本发明专利技术使用了7个具有代表性的文本特征,利用多特征融合与机器学习算法相结合,以滑动窗口为基准,确定风格裂缝位置。写作风格是一个人写作习惯的养成,通过该发明专利技术可以对一篇文章的原创性进行判定,并经过实验证实了该方法的有效性。

A crack detection method based on the author's writing style

The invention belongs to the field of machine learning technology, in particular to a crack detection method based on the author's writing style. Writing style refers to the unique, distinct and hidden style and style of literary works. It is influenced not only by the writer's subjective writing habits, but also by the objective geographical location, language, subject matter, nationality and creation era. The style crack represents the position where the writing style changes. The recognition of the style crack is realized by the style feature extraction, which considers the style features from the aspects of words, sentences and emotions. The invention uses 7 representative text features, combines the multi feature fusion and machine learning algorithm, and determines the position of the style crack based on the sliding window. Writing style is the formation of a person's writing habit. Through the invention, the originality of an article can be determined, and the effectiveness of the method has been proved by experiments.

【技术实现步骤摘要】
一种基于作者写作风格的裂缝检测方法
本专利技术属于机器学习
,具体涉及一种基于作者写作风格的裂缝检测方法。
技术介绍
风格特征提取最早是对单特征进行研究,随着单特征不能满足实验结果,多特征融合也应运而生。近年来机器学习和神经网络的发展,把机器学习和神经网络的算法引入到风格提取和作者识别中,并且取得了好的结果。由于中文的多变和困难,所以在对中文的风格提取上,比外文的风格提取明显更加困难,中文需要考虑到分词系统的准确性,句子结构也比较复杂。尽管中文的风格提取比外文更困难,但对于风格的研究仍然同样受到了广泛的关注。文本分割技术对一个文章根据文章的某些特征把文章分成几个独立的片段。文本分段技术在文本预处理,自然语言处理中占用很重要的比重。由于文本分段的目的不同,所以使用的方法也有所不同。现有的分割技术大致可分为基于词汇聚集的分割方法,基于语言特征的分割方法,基于概率统计的分割方法。
技术实现思路
本专利技术的目的是提供一种基于作者写作风格的裂缝检测方法。本专利技术的目的是这样实现的:一种基于作者写作风格的裂缝检测方法,具体步骤如下:(1)预处理;(2)单风格特征提取;(3)参数权重法确定风格裂缝;(4)基于风格特征的风格聚裂,判断风格裂缝。所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后,进行标点过滤。所述的单风格特征提取包括单维特征和多维特征;单维特征包括词长度、平均句子长度、情感偏向,多维特征包括词汇特征、符号特征、同义词、虚词。所述的参数权重法是通过对所有参数权重进行遍历,对参数进行调优,最后找出每个特征的最优参数;虚词和同义词降维之后分别选用同一组参数作为权重。所述的参数权重法确定风格裂缝是在得到最优参数权重的基础上,通过欧几里得计算距离得到滑动窗口对每一个窗口的相似度,根据部分权重的相似度差异,判断风格是否相似,最后在风格差异太大并且是断尾的位置上记一次风格裂缝。所述的基于风格特征的风格聚裂,判断风格裂缝是先提取出文章每一个段落的风格特征,把风格特征参数组成向量作为K-means++算法的输入,输入当前文档给出的作者个数N;K的取值从1到2N;通过轮廓系数评价最优K;通过这个K值,进行迭代收敛;通过这个收敛结果,找出风格裂缝位置,最后输出。本专利技术的有益效果在于可以对一篇文章的原创性进行判定,并经过实验证实了该方法的有效性。附图说明图1风格裂缝识别结构图图2情感算法流程图图3同义词向量特征获取结构图图4虚词向量生成步骤具体实施方式下面结合附图对本专利技术做进一步描述。本专利技术属于机器学习
,具体涉及一种基于作者写作风格的裂缝检测方法。本专利技术的目的是提供一种基于作者写作风格的裂缝检测方法。本专利技术的目的是这样实现的:根据文章的写作风格特征进行裂缝识别,该专利技术的技术路线及工作流程可以分为四个阶段。第一阶段,对语料库进行句子拆分和粗粒度分词的预处理;第二阶段,进行文章的特征提取;第三阶段,利用参数权重技术确定特征的权重参数,必要时舍去作用较小的特征,在文本风格特征差异较为明显处,标注风格裂缝。第四阶段通过筛选的风格向量作为K-means++算法的输入,利用滑动窗口进行风格特征识别,进一步找出风格裂缝的位置。(1)风格特征提取文体风格特征是指能够代表作者写作习惯的文档的属性,对于文档风格特征提取主要是通过词汇特征、语法特征、结构特征、语义特征等。通过风格特征的提取结果可以表示一名作者的写作习惯和写作风格。(2)滑动窗口与风格裂缝的确定滑动窗口以多个句子为一个整体,进行风格特征识别。每次向下滑动一个句子,对每个窗口进行风格统计,当风格发生转变的时候,每次风格和上一次发生的结果有逐渐的变化,直到风格相似度又趋近不变,则这个位置发生过风格裂缝。风格裂缝识别是通过风格特征提取的结果,利用的是多特征融合和无监督的机器学习算法相结合的方法。本专利技术进一步描述如下:一种基于作者写作风格的裂缝检测方法,包括:通过提取文本的写作特征,对文本进行裂缝检测,找出多作者文章中不同作者的写作转换位置,借此为依据,在不借助外力词库的情况下,可根据风格裂缝进行中文内部的剽窃检测。风格裂缝识别首先是对文章的风格特征进行提取,之后借助滑动窗口思想,利用机器学习算法进行文本切割。针对作者的写作风格的界定,本专利技术提出了中文写作习惯的单维特征和多维特征。并针对文本风格特点对特征内容进行有效性提取,结合两种特征的优点,进行多特征融合。针对文本的风格裂缝识别,本专利技术主要提出了两个方法,分别是基于参数权重法和基于K-means++算法,参数权重法可以分析每一个特征提取的有效性,在特征差异明显处记录风格裂缝;而K-means++是一个无监督的方法,使用风格特征结合K-means++算法进行风格特征聚类,最后确定风格裂缝位置。1.预处理首先针对所选用的新闻语料通过粗粒度分词预处理之后,进行标点过滤。2.单风格特征提取词长度:计算每一个分词结果之后的词包含几个字,在英文上是统计字母个数,把词长度作为最后分类的一个参数。平均句子长度:统计句子包含有几个汉字和标点,统计出每一个句子的长度,再平均求和。平均句子长度以“。”、“!”和“?”为标记,统计句子中长度字数的平均值作为最后的一个维度。情感偏向:考虑句子中的情感词,程度词,否定词以及感叹词,根据这些词的出现与否以及出现次数进行处理,得出这句话的一个积极分值,一个消极分值。词汇特征:分别包括分词处理后统计的总词数,两个字的词,三个字的词,四个字的词个数,自造词/总词数,感叹词/总次数,不同词个数/总次数,词汇密度。这八个结果作为最后计算的八个维度。特殊标点符号:统计冒号,分号,千百分号,单位符号,左右引号,左右括号,叹号,省略号,破折号,问号和顿号。同义词:特征的提取以新闻集作为基准训练集,通过遍历整个哈工大同义词林,删除出现次数过小和过大的同义词,对同义词进行同义词向量统计,出现一次加一,最后删除同义词向量中的所有未出现的同义词。这里面需要删除在测试集没出现过的同义词,从而减小实验误差。对测试集出现的词,训练集未出现的时候,使用平滑技术,增加实验的准确性,并且存成相应的格式。虚词:通过自定义虚词表作为基准,对虚词表的虚词使用情况进行计算。首先制作虚词表,虚词表来源是《现在汉语虚词词典》,虚词表中一共有840个虚词,和同义词表相同,虚词表维度过大,虚词表中含有一些生僻和不常用的虚词,会影响结果的计算。以新闻集为基准,对虚词表的虚词进行TF-IDF统计,删除TF-IDF过低。通过多次清洗,最后精简到230个虚词。选用230个虚词首先能控制在一个合理的维度中,其次这230个虚词能体现虚词在新闻集中的重要程度,最后形成一个虚词TF-IDF词对表作为备用。至此,完成了风格特征提取。特征提取包括单维特征本文档来自技高网
...

【技术保护点】
1.一种基于作者写作风格的裂缝检测方法,其特征在于:具体步骤如下:/n(1)预处理;/n(2)单风格特征提取;/n(3)参数权重法确定风格裂缝;/n(4)基于风格特征的风格聚裂,判断风格裂缝。/n

【技术特征摘要】
1.一种基于作者写作风格的裂缝检测方法,其特征在于:具体步骤如下:
(1)预处理;
(2)单风格特征提取;
(3)参数权重法确定风格裂缝;
(4)基于风格特征的风格聚裂,判断风格裂缝。


2.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后,进行标点过滤。


3.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的单风格特征提取包括单维特征和多维特征;单维特征包括词长度、平均句子长度、情感偏向,多维特征包括词汇特征、符号特征、同义词、虚词。


4.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法,其特征在于:所述的参数权重法是通过对所有参数权重进行遍历,对参数进行...

【专利技术属性】
技术研发人员:刘刚王凯李涛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1