同义词挖掘方法及装置
基本信息
申请号 | CN201410193704.5 | 申请日 | - |
公开(公告)号 | CN103942339B | 公开(公告)日 | 2017-06-09 |
申请公布号 | CN103942339B | 申请公布日 | 2017-06-09 |
分类号 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 车天文;王更生;刘捷;雷大伟 | 申请(专利权)人 | 深圳宜搜天下科技股份有限公司 |
代理机构 | 深圳市凯达知识产权事务所 | 代理人 | 深圳市宜搜科技发展有限公司;深圳宜搜天下科技股份有限公司 |
地址 | 518026 广东省深圳市福田区滨河路与彩田路交汇处联合广场A栋塔楼A5501-A | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种同义词挖掘方法,上述方法为:提取类似对齐语料;对每对类似对齐语句S1、S2分别进行分词处理,得到词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每对词语序列的S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…,T2[j])的词语的同义概率;对NT1[i]相对于NT2[j]的同义概率进行迭代运算;计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出;本发明同时公开了一种同义词挖掘装置。本发明提升了同义词挖掘的准确率,易于操作实现。 |
