泰语术语提取的方法及装置

基本信息

申请号 CN201710982767.2 申请日 -
公开(公告)号 CN107704452A 公开(公告)日 2018-02-16
申请公布号 CN107704452A 申请公布日 2018-02-16
分类号 G06F17/27 分类 计算;推算;计数;
发明人 张凯;闫昊;车双武 申请(专利权)人 传神联合(北京)信息技术有限公司
代理机构 北京康盛知识产权代理有限公司 代理人 传神联合(北京)信息技术有限公司
地址 100000 北京市海淀区中关村南大街乙12号院1号楼4层506
法律状态 -

摘要

摘要 本发明公开了泰语术语提取的方法及装置,属于信息检索技术领域。该方法包括:从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。这样,可通过信息熵处理,从泰语文档中识别并提取泰语术语,提高了泰语术语提取的效率和准确率,以及泰语文档的阅读速度。