The invention discloses a retrieval method based on topic similarity case, which belongs to the technical field of data retrieval method, including the document to the layout and the key words as constraint conditions, the use of automatic extraction algorithm to extract document the facts of the case, the focus of controversy and the results of the three segments; based on the field list, using the topic model separately from the subject the word document block, get the subject chunks and chunks of each document theme block; according to the document segment topic words block, non subject words in the block feature, construction characteristics of the inverted index; inverted index mapping feature as the feature vector and calculate the query and document data set the document topic similarity by similarity model; the similarity of documents sorted on the query and document data, and output documents retrieval results . The invention describes the document from two dimensions of the judicial characteristic words and the judicial subject, thereby improving the efficiency and accuracy of the case retrieval.
【技术实现步骤摘要】
一种基于主题相似度的案件检索方法
本专利技术涉及数据检索
,特别涉及一种基于主题相似度的案件检索方法。
技术介绍
随着社会信息的公开化、透明化,案件的审判结果也越来越受到社会的关注。对于同一个案件,不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前,及时的推荐以往的相似案件,无疑会起到一个很好的参考作用。目前的司法类案件检索,普遍采用的是基于tf-idf的向量空间模型相似度计算方法,这种方法以关键词在文本中出现的频率及文本集中出现该词的反文档频率来表征词权重,通过计算向量之间的余弦相似度来计算文本的相似度,进而根据文本的相似度来进行检索。但是,由于以下原因:一、对于司法文书数据集而言,词项的数目和文书数目都很大,采用词频向量模型,必须将文书表示为词项数目和文书数目的矩阵,具有非常高的特征维度。二、特征矩阵极度稀疏,计算效率较低。三、在相似度的计算过程中,无关词项参与相似度模型的计算,造成干扰导致检索效果差。因此,现有的基于关键词的全文检索方法,具有检索效率低、检索结果不准确以及专业性差等缺点。
技术实现思路
本专利技术的目的在于提供一种很基于主题相似度的案件检索方法,以提高案件检索的效率和准确度。为实现以上目的,本专利技术提供一种基于主题相似度的案件检索方法,该方法包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为 ...
【技术保护点】
一种基于主题相似度的案件检索方法,其特征在于,包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。
【技术特征摘要】
1.一种基于主题相似度的案件检索方法,其特征在于,包括:以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。2.如权利要求1所述的方法,其特征在于,所述的主题相似度模型具体为:其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。3.如权利要求1或2所述的方法,其特征在于,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,具体包括:利用所述主题相似度模型,分别计算特征...
【专利技术属性】
技术研发人员:耿伟,周宇,司华建,贾真,
申请(专利权)人:安徽富驰信息技术有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。