一种基于医学专业词典与统计算法的分词方法

基本信息

申请号 CN201810478904.3 申请日 -
公开(公告)号 CN110502737A 公开(公告)日 2019-11-26
申请公布号 CN110502737A 申请公布日 2019-11-26
分类号 G06F17/27 分类 计算;推算;计数;
发明人 朱卫国;沙欧;闻思源;赵从朴 申请(专利权)人 睿医(北京)数据技术有限公司
代理机构 - 代理人 -
地址 100000 北京市东城区王府井帅府园1号
法律状态 -

摘要

摘要 本发明公开了一种基于医学专业词典与统计算法的分词方法,包括以下步骤:语料预处理、候选词条的表达与产生实现、分词结果判别、分词结果的歧义消除、医学词典的构造和未登录词的发现。本发明有效解决了当前无针对中文医学语料的专用分词方法模型和系统的问题,提升中文医学语料分词准确率、召回率和F值等关键评价指标。