一种地址字符串的分词方法及装置

基本信息

申请号 CN202011522142.6 申请日 -
公开(公告)号 CN112256932B 公开(公告)日 2021-04-09
申请公布号 CN112256932B 申请公布日 2021-04-09
分类号 G06Q30/00(2012.01)I;G06F40/289(2020.01)I;G06F40/216(2020.01)I 分类 计算;推算;计数;
发明人 侯建;黄峰;费春勇 申请(专利权)人 中博信息技术研究院有限公司
代理机构 常州佰业腾飞专利代理事务所(普通合伙) 代理人 张励
地址 210000江苏省南京市雨花台区小行尤家凹08号
法律状态 -

摘要

摘要 本申请公开了一种地址字符串的分词方法及装置,根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;使用平滑优化算法提升状态预测的准确率;将概率最大的状态预测的结果转换为具体的地址信息。本申请以HMM模型作为基础,将长地址字符串视为一个观测序列,通过学习基础地址库中的状态转移规律,得出一个适用于中文地址分词标注的模型,并采用了平滑优化算法提升预测的准确率,计算结果可以得出该地址的状态序列,将概率最大的结果作为最终的地址分词方案,降低了人力时间成本,提升了效率。该方法不仅适用于电信领域的智能客服系统,还适用于其他具有地址分词相似场景的垂直领域。