一种多特征融合的中文分词方法专利查询专利号|摘要-满商公司网

一种多特征融合的中文分词方法

基本信息

摘要

摘要	本发明公开一种多特征融合的中文分词方法，包括以下步骤：1)模型构建，对输入文本序列进行分布式向量化，得到词向量、位置向量以及偏旁部首向量表示，作为分词模型的嵌入层；将BilSTM网络层和CRF线性层结合训练，得到中文分词模型；2)模型训练，使用已标注结果的文本数据输入到上述BiLSTM‑CRF模型，以此训练模型；3)模型预测，使用训练得到的基于BilSTM‑CRF的中文分词模型，将待分词句子序列输入到模型中，从而得到分词标签序列。本发明将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM‑CRF的深度学习模型，用于提升自然语言处理领域中中文分词任务的准确性。