标点符号标注方法、装置、计算机设备和存储介质

基本信息

申请号 CN202110828958.X 申请日 -
公开(公告)号 CN113449489A 公开(公告)日 2021-09-28
申请公布号 CN113449489A 申请公布日 2021-09-28
分类号 G06F40/117(2020.01)I;G06F40/211(2020.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 耿思晴;潘晟锋;文博;刘云峰 申请(专利权)人 深圳追一科技有限公司
代理机构 广州华进联合专利商标代理有限公司 代理人 黄晶晶
地址 518057广东省深圳市南山区粤海街道科技园社区科苑路8号讯美科技广场3号楼23A、23B
法律状态 -

摘要

摘要 本申请涉及一种标点符号标注方法、装置、计算机设备和存储介质。该方法包括:获取包括多组样本数据的训练数据集,每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列;根据各样本文本的文本长度,确定待训练的标点预测模型的卷积核数量和各卷积核的长度,对待训练的标点预测模型进行迭代训练,得到标点预测模型;标点预测模型中包括用于获取长距离的上下文信息的第一卷积核和用于获取短距离的上下文信息的第二卷积核;将无标点符号的待标注文本输入至标点预测模型中,输出对应于待标注文本的标点符号标签序列,并将待标注文本和标点符号标签序列整合,生成标注有标号符号的文本。采用本方法能为文本进行更为准确地预测标点符号。