一种基于机器学习的文章断句方法

基本信息

申请号 CN202010232911.2 申请日 -
公开(公告)号 CN111401004A 公开(公告)日 2020-07-10
申请公布号 CN111401004A 申请公布日 2020-07-10
分类号 G06F40/131(2020.01)I;G06N20/00(2019.01)I 分类 -
发明人 李鑫;沈伟;鲍琦 申请(专利权)人 苏州机数芯微科技有限公司
代理机构 合肥市长远专利代理事务所(普通合伙) 代理人 苏州机数芯微科技有限公司
地址 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
法律状态 -

摘要

摘要 本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。