一种对文本序列进行分词的方法、装置和电子设备

基本信息

申请号 CN201711364208.1 申请日 -
公开(公告)号 CN108038103B 公开(公告)日 2021-08-10
申请公布号 CN108038103B 申请公布日 2021-08-10
分类号 G06F40/289;G06N3/04 分类 计算;推算;计数;
发明人 苏海波;刘钰;刘译璟;杨哲铭;杨中亮 申请(专利权)人 沈阳智能大数据科技有限公司
代理机构 北京国昊天诚知识产权代理有限公司 代理人 李潇
地址 110623 辽宁省沈阳市浑南区创新路155-5号888室
法律状态 -

摘要

摘要 本发明公开了一种文本的分词方法、装置和电子设备,所述方法包括:确定与所述文本序列对应的概率矩阵,所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值,所述标注字符用于对所述文本序列进行分词;确定与所述概率矩阵对应的转移矩阵,所述转移矩阵记录了所述每个标注字符之间的转移概率;根据所述概率矩阵和转移矩阵,对所述文本序列进行分词。本发明可以避免在中文分词过程中,存在分词特征抽取受限以及领域适应性较差的问题。