一种多特征融合的中文分词方法

基本信息

申请号 CN202011399750.2 申请日 -
公开(公告)号 CN112464663A 公开(公告)日 2021-03-09
申请公布号 CN112464663A 申请公布日 2021-03-09
分类号 G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 王会珍;姜涛;张新新 申请(专利权)人 小牛思拓(北京)科技有限公司
代理机构 沈阳优普达知识产权代理事务所(特殊普通合伙) 代理人 李晓光
地址 110004辽宁省沈阳市和平区三好街东软电脑城C座10楼
法律状态 -

摘要

摘要 本发明公开一种多特征融合的中文分词方法,包括以下步骤:1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM‑CRF模型,以此训练模型;3)模型预测,使用训练得到的基于BilSTM‑CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。本发明将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM‑CRF的深度学习模型,用于提升自然语言处理领域中中文分词任务的准确性。