一种基于马尔可夫语言模型的缩略词组扩展方法

基本信息

申请号 CN201810623395.9 申请日 -
公开(公告)号 CN108984159B 公开(公告)日 2021-06-15
申请公布号 CN108984159B 申请公布日 2021-06-15
分类号 G06F8/30(2018.01)I;G06F40/284(2020.01)I 分类 计算;推算;计数;
发明人 李定邦;付晗;杨朝晖 申请(专利权)人 浙江网新恒天软件有限公司
代理机构 杭州求是专利事务所有限公司 代理人 刘静;邱启旺
地址 310012浙江省杭州市教工路23号百脑汇科技大厦18楼
法律状态 -

摘要

摘要 本发明公开了一种基于马尔可夫语言模型的缩略词组扩展方法,该方法首先进行数据准备,从业务文档中抽取出独立词及其对应扩展词的映射关系,从独立词到扩展词的映射关系称为扩展表;其次利用正则表达式,在明确书写的分词位置对缩略词组进行切割,得到原型词序列;然后将原型词序列中不属于可扩展集的原型词认为是复合词,通过隐马尔可夫模型对构成独立词的字符序列进行建模,使用维特比算法求最大似然解的方式自动识别复合词中各个独立词的分割点,从而将复合词切割为独立词;利用单词序列概率模型来评估扩展结果,以此来提高缩略词扩展的准确度。