一种文本标注方法、装置、设备及可读存储介质

基本信息

申请号 CN202011233453.0 申请日 -
公开(公告)号 CN112183035A 公开(公告)日 2021-01-05
申请公布号 CN112183035A 申请公布日 2021-01-05
分类号 G06F40/166(2020.01)I 分类 计算;推算;计数;
发明人 左永忠;刘余海 申请(专利权)人 上海恒生聚源数据服务有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 上海恒生聚源数据服务有限公司
地址 200127上海市浦东新区峨山路91弄61号7楼
法律状态 -

摘要

摘要 本申请实施例提供了一种文本标注方法、装置、设备及可读存储介质,在待标注的文本页的标题项中,确定表格的标题,从目标标题项中,按照排序的逆序查找满足预设条件的标题项,将满足预设条件的标题项中,排序在前的标题项作为上级标题,排序在后的标题项作为下级标题,预设条件包括:所述标题项之间不存在文本。依据上级标题和下级标题的区别特征,识别文本页中的上级标题和下级标题。将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果,从预设的对应关系中,查询目标分词单元,将目标分词单元对应的标注项,作为标题的标注结果。本方案确定各个标题的分级,因此不仅能够自动对文本中的标题进行标注,还能够保证标注结果的准确性。