一种基于主题相似度的案件检索方法技术

技术编号:16188239 阅读:55 留言:0更新日期:2017-09-12 11:27
本发明专利技术公开了一种基于主题相似度的案件检索方法,属于数据检索技术领域,方法包括以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算查询语句与文书数据集中各文书的相似度;对查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成文书检索。本发明专利技术从司法特征词和司法主题两个维度来描述文书,提高了类案检索的效率和准确性。

A case retrieval method based on topic similarity

The invention discloses a retrieval method based on topic similarity case, which belongs to the technical field of data retrieval method, including the document to the layout and the key words as constraint conditions, the use of automatic extraction algorithm to extract document the facts of the case, the focus of controversy and the results of the three segments; based on the field list, using the topic model separately from the subject the word document block, get the subject chunks and chunks of each document theme block; according to the document segment topic words block, non subject words in the block feature, construction characteristics of the inverted index; inverted index mapping feature as the feature vector and calculate the query and document data set the document topic similarity by similarity model; the similarity of documents sorted on the query and document data, and output documents retrieval results . The invention describes the document from two dimensions of the judicial characteristic words and the judicial subject, thereby improving the efficiency and accuracy of the case retrieval.

【技术实现步骤摘要】
一种基于主题相似度的案件检索方法
本专利技术涉及数据检索
,特别涉及一种基于主题相似度的案件检索方法。
技术介绍
随着社会信息的公开化、透明化,案件的审判结果也越来越受到社会的关注。对于同一个案件,不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前,及时的推荐以往的相似案件,无疑会起到一个很好的参考作用。目前的司法类案件检索,普遍采用的是基于tf-idf的向量空间模型相似度计算方法,这种方法以关键词在文本中出现的频率及文本集中出现该词的反文档频率来表征词权重,通过计算向量之间的余弦相似度来计算文本的相似度,进而根据文本的相似度来进行检索。但是,由于以下原因:一、对于司法文书数据集而言,词项的数目和文书数目都很大,采用词频向量模型,必须将文书表示为词项数目和文书数目的矩阵,具有非常高的特征维度。二、特征矩阵极度稀疏,计算效率较低。三、在相似度的计算过程中,无关词项参与相似度模型的计算,造成干扰导致检索效果差。因此,现有的基于关键词的全文检索方法,具有检索效率低、检索结果不准确以及专业性差等缺点。
技术实现思路
本专利技术的目的在于提供一种很基于主题相似度的案件检索方法,以提高案件检索的效率和准确度。为实现以上目的,本专利技术提供一种基于主题相似度的案件检索方法,该方法包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。进一步地,主题相似度模型具体为:其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。进一步地,将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,具体包括:利用所述主题相似度模型,分别计算特征向量中主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度;对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和,得到用户查询语句与文书的相似度。进一步地,在以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块之前,还包括:基于停用词词典,去除文本中的停用词;对去除停用词的文书进行分词处理,得到文书的分词结果。进一步地,在利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前,还包括:基于停用词词典,去除用户查询语句中的停用词;对去除停用词后的用户查询语句进行分词处理,得到用户查询语句的分词结果;基于所述领域词表,对用户查询语句的分词结果进行筛选,得到所述用户查询语句的关键词。进一步地,该方法还包括:结合信息点对所述文书数据集中的文书数据进行过滤,得到过滤后的文书数据;相应地,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,还包括:使用所述的主题相似度模型计算用户查询语句与过滤后文书的相似度。与现有技术相比,本专利技术存在以下技术效果:第一、本专利技术在原有的自动抽取算法的基础上,以司法文书的布局和要点词为约束条件,确保文书关键段块抽取的准确性。第二、对关键段块抽取主题词时,采用司法领域的领域词表对段块中的特征词进行筛选,去除了无关词项的干扰,降低了特征词的维度,提高了类案检索效率和检索专业性。第三、从司法主题和司法特征词两个维度来描述司法文书,提高了文书描述的精确度,并且在计算相似度时,兼顾主题词块和非主题词块的相似度计算,极大的提高了类案检索的准确率和召回率。附图说明下面结合附图,对本专利技术的具体实施方式进行详细描述:图1是本专利技术一实施例中一种基于主题相似度的案件检索方法的流程示意图;图2是本专利技术一实施例中司法文书的描述示意图;图3是本专利技术一实施例中司法文书隐含主题层次的结构示意图;图4是本专利技术一实施例中离线构建特征词倒排索引的流程示意图;图5是本专利技术一实施例中基于主题词相似度对司法类案件进行检索的流程示意图。具体实施方式为了更进一步说明本专利技术的特征,请参阅以下有关本专利技术的详细说明与附图。所附图仅供参考与说明之用,并非用来对本专利技术的保护范围加以限制。如图1所示,本实施例公开了一种基于主题相似度的案件检索方法,该方法包括如下步骤S1至S5:S1、以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;其中,文书的布局指的是:司法文书在排布时固定的组成部分,一般包括案件事实、争议焦点以及裁判结果等部分,要点词指的是案件事实、争议焦点以及节裁判结果等内容中涉及的重要词汇。例如,司法文书中案件事实、争议焦点以及裁判结果等组成部分一般有固定的位置,但是由于司法文书种类的不同,上述固定位置可能会出现偏差,此时通过各部分的要点词汇进行进一步限定,可保证司法文书关键段块抽取的准确性。需要说明的是,本实施例中所抽取的案件事实、争议焦点以及裁判结果三个关键段块仅为举例说明,本领域技术人员可以根据实际情况的需要抽取不同数量、不同组成部分的关键段块。S2、基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;需要说明的是,如图2所示,在司法领域,通过领域词表规范的词条来描述专业领域内的主题词。将一篇司法文书中重要的词语挑选出来,使用主题词来表示一个概念、一个方面,这些主题词构成主题词块。主题词块具有清晰的层次结构,依次为文书集合层、主题层和特征词层,司法文书可以由这些主题词和领域词语的条件概率表示。S3、根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;具体地,将司法文书建模到司法主题词、司法特征词的二维特征空间,保留描述司法文书的本质特征信息,并采用倒排索引结果存储,有助于高效地处理大规模司法文书数据。S4、将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;S5、对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。本实施例中,如图3至图4所示,基于司法领域的领域词表,从司法裁判的领域业务知识体系出发,构造描述案件的争议焦点、裁判结果和案件事实等关键段块,每个段块由两个词块组成,一个词块是属于领域词表的主题词构成的主题词块,另一个词块是由非主题词构成的非主题词块。第一方面,主题词块是以司法领域的领域词表匹配得到,去除了无关词项,不仅确保了主题词块的精确性,而且降低了主题词块中特征词的维度,降低了计算量。第二,将司法文书表示为司法主题词块和特征词两个维度,与原有的将司法文书表示为词项数目和文书数目的矩阵相比,降低了特征维度,减小了运算量,实现高效处理大规模司法文书数据的目标。进一步地,主题相似度模型具体为:其中,Q表示用户查询语句,qj表本文档来自技高网...
一种基于主题相似度的案件检索方法

【技术保护点】
一种基于主题相似度的案件检索方法,其特征在于,包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。

【技术特征摘要】
1.一种基于主题相似度的案件检索方法,其特征在于,包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。2.如权利要求1所述的方法,其特征在于,所述的主题相似度模型具体为:其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。3.如权利要求1或2所述的方法,其特征在于,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,具体包括:利用所述主题相似度模型,分别计算特征...

【专利技术属性】
技术研发人员:耿伟周宇司华建贾真
申请(专利权)人:安徽富驰信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1