一种翻译能力数据的关联规则的挖掘方法技术

技术编号：9865885 阅读：141 留言：0更新日期：2014-04-03 01:14

本发明专利技术公开了一种翻译能力数据的关联规则的挖掘方法，包括：提取多篇已翻译文档，建立文档信息集，将文档信息集中的所有记录进行整合处理，并相关数据计算，得到译员的能力项及其能力项分值，建立基础事务数据库；对基础事务数据库进行去噪处理，得到事务数据库；根据事务数据库中的记录，递推出所有频繁项集，并根据递推出的频繁项集中译员能力项分值，计算各个能力项之间的关联程度，结果满足置信度阈值要求，输出各个能力项之间的关联规则。本发明专利技术通过根据将一些翻译能力相关的数据进行处理计算，得到各个能力项之间的关联规则，将该关联规则用作挖掘译员的潜能，具有很高的准确性，计算机的数据处理量也得到有效的降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种翻译
，具体而言，涉及。
技术介绍
目前，在翻译行业中，译员是翻译平台最重要的资源，每个译员的翻译能力的增加，是整个翻译平台翻译资源增长的基础和出发点。在翻译平台上，译员只有具备某项翻译能力才能申领某类翻译任务，所以当译员具备的翻译能力项越多，翻译平台的翻译资源相对就越大，整个翻译平台的翻译产能也越大。对于每个译员个体，尽可能挖掘出其具备的更多的翻译能力，对于提高整个翻译平台的翻译产能及整个翻译平台的建设有着非常重要的意义。翻译平台对于译员的翻译能力按语种、行业、学科领域进行划分，对于不同的语种、行业、学科领域，每个译员有不同的翻译能力，翻译平台通常根据每个译员的过往翻译历史结合翻译能力测试对译员的翻译能力进行评估和判定。这种方法往往需要很长时间多次的翻译合作才能对一个译员的某种能力进行评估测试，如果对译员的翻译能力可以进行即时的发现和即时的评估，则能够大为减少发现译员翻译能力的时间和增加发现译员翻译能力的概率。
技术实现思路
本专利技术旨在提供，需要长时间对译员的某种能力进行评估测试，才能发现译员潜在能力的问题。本专利技术公开了，包括:·提取多篇已翻译文档，根据所述已翻译文档中的翻译信息，建立文档信息集，所述文档信息集中的每条记录对应一篇所述已翻译文档，并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量分值；将所述文档信息集中的所有记录按照所述译员编号进行整合处理，并根据所述文档类别和所述文档翻译质量计算，得到译员的能力项及其能力项分值，建立基础事务数据库；对所述基础事务数据库进行去噪处理，对数据离...

【技术保护点】
一种翻译能力数据的关联规则的挖掘方法，其特征在于，包括：提取多篇已翻译文档，根据所述已翻译文档中的翻译信息，建立文档信息集，所述文档信息集中的每条记录对应一篇所述已翻译文档，并且每个所述记录中包含有如下特征项：译员编号、文档类别和文档翻译质量分值；将所述文档信息集中的所有记录按照所述译员编号进行整合处理，并根据所述文档类别和所述文档翻译质量计算，得到译员的能力项及其能力项分值，建立基础事务数据库；对所述基础事务数据库进行去噪处理，对数据离散性较大，符合噪音标准的记录进行剔除处理，得到事务数据库；根据所述事务数据库中的记录，递推出所有频繁项集，并根据递推出的频繁项集中译员能力项分值，计算各个能力项之间的关联程度，结果满足置信度阈值要求，输出所述各个能力项之间的关联规则。

【技术特征摘要】
1.一种翻译能力数据的关联规则的挖掘方法，其特征在于，包括: 提取多篇已翻译文档，根据所述已翻译文档中的翻译信息，建立文档信息集，所述文档信息集中的每条记录对应一篇所述已翻译文档，并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量分值；将所述文档信息集中的所有记录按照所述译员编号进行整合处理，并根据所述文档类别和所述文档翻译质量计算，得到译员的能力项及其能力项分值，建立基础事务数据库；对所述基础事务数据库进行去噪处理，对数据离散性较大，符合噪音标准的记录进行剔除处理，得到事务数据库；根据所述事务数据库中的记录，递推出所有频繁项集，并根据递推出的频繁项集中译员能力项分值，计算各个能力项之间的关联程度，结果满足置信度阈值要求，输出所述各个能力项之间的关联规则。2.根据权利要求1所述的方法，其特征在于，所述文档类别作为译员的一种能力项；文档的翻译质量分为不同等级的若干个标准，每个标准对应有一评分数值，即文档翻译质量分值；在所述整合的过程中，计算译员的所述能力项分值的过程包括: 按照能力项分值计算公式计算得到译员的所述能力项分值，所述公式如下: 3.根据权利要求2所述的方法，其特征在于，根据数据离散性，所述去噪处理的过程，包括: 根据所述基础事务数据库中的每条记录的所述译员能力项，按照均值和标准差计算公式计算出其均值μ和标准差σ/μ，若=大于噪音阈值，将该记录作为噪音处理；所述均值计算公式为 4.根据权利要求1所述的方法，其特征在于，所述递推出频繁项集的过程包括: 扫描事务数据库，根据事务数据库中的记录，得到所述事务数据库中所有的1项集；计算每个所述1项集的支持度，得到支持度不小于最小支持度阈值的频繁1项集；通过频繁k项集与频繁1项集进行无重复合并，生成支持度不小于最小支持度阈值的频繁k+1项集。5.根据权利要求4所述的方法，其特征在于，还包括: 每个所述I项集对应着有一布尔数组，该布尔数组长度为事务数据库的记录总数，所述布尔数组的各个...

【专利技术属性】
技术研发人员：江潮，
申请(专利权)人：武汉传神信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人