句子相似度计算方法及装置制造方法及图纸

技术编号：12409711 阅读：103 留言：0更新日期：2015-11-29 18:02

本发明专利技术提供一种准确度高的句子相似度计算方法及装置。该句子相似度计算方法，包括：针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词，其中，重复词既属于第一句子又属于第二句子，第一孤存词仅属于第一句子，第二孤存词仅属于第二句子；根据所有第一孤存词和所有第二孤存词，计算孤存词相似度总贡献值G总，其中，G总≥0，并且所有第一孤存词与所有第二孤存词之间的相似程度越高，G总数值越大；根据公式计算SIM(A,B)，其中SIM(A,B)表示第一句子和第二句子的句子相似度，表示第一句子对应的第一句向量，表示第二句子对应的第二句向量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，尤其涉及一种句子相似度计算方法及装置。
技术介绍
句子相似度计算是自然语言处理的一项重要研究内容，近年来在信息检索、机器翻译、问答系统、自动文摘等应用领域中的作用越来越重要。传统方法多通过余弦相似性（cosine simiIiarity)来衡量两个句子的相似程度。具体过程为：先将需要比较相似度的两个句子分别转换为句向量表示，然后计算两个句向量的夹角的余弦值，。计算结果数值是〇到1之间，数值越大说明两个句子越相似。更多详情可以参考维基百科 https: //en. wikipedia. org/wiki/Cosine similarity〇该方法简便易行，但是不够准确。例如：需要比较"是高清吧"和"这是高清的吗"这两个句子的相似度。切词后的两个句子分别是"是/高清/吧"和"这是/高清/的/吗"。假设词的权重值都是1，各词对应的向量维度下标为：是_>维度下标1，高清_>维度下标2,吧_>维度下标3,这是_>维度下标4,的-> 维度下标5,吗-> 维度下标6,则两个句子分别对应的句向量是和。计算这两个句向量的夹角的余弦值：上述方法计算出来的余弦值很小、句子相似度不高，然而人工判断两个句子实际上非常相似，由此可见上述方法存在准确度低的缺陷。
技术实现思路
有鉴于此，本专利技术旨在克服现有技术的准确度低的缺陷，提供一种准确度高的句子相似度计算方法及装置。为实现上述目的，根据本专利技术的一个方面，提供了一种句子相似度计算方法，包括：步骤Sl :针对...
句子相似度计算方法及装置

【技术保护点】
一种句子相似度计算方法，其特征在于，包括：步骤S1：针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词，其中，所述重复词既属于所述第一句子又属于所述第二句子，所述第一孤存词仅属于所述第一句子，所述第二孤存词仅属于所述第二句子；步骤S2：根据所有第一孤存词和所有第二孤存词，计算孤存词相似度总贡献值G总，其中，G总≥0，并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高，所述G总数值越大；步骤S3：根据公式计算SIM(A,B)，其中SIM(A,B)表示所述第一句子和第二句子的句子相似度，表示所述第一句子对应的第一句向量，表示所述第二句子对应的第二句向量。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘佳，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人