文本类型识别方法及装置
基本信息
申请号 | CN202110967393.3 | 申请日 | - |
公开(公告)号 | CN113673243A | 公开(公告)日 | 2021-11-19 |
申请公布号 | CN113673243A | 申请公布日 | 2021-11-19 |
分类号 | G06F40/289(2020.01)I;G06F16/28(2019.01)I;G06F40/216(2020.01)I;G06F40/30(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 杨一帆;刘悦华 | 申请(专利权)人 | 上海浦东华宇信息技术有限公司 |
代理机构 | 北京中索知识产权代理有限公司 | 代理人 | 胡大成 |
地址 | 201203上海市浦东新区中国(上海)自由贸易试验区祖冲之路899号2幢4层 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种文本类型识别方法及装置,用于解决现有技术中文本类型识别准确度低的技术问题。其中,一种文本类型识别方案,包括:获取语料数据;去除所述语料数据中的无效信息,生成预处理语料数据;对所述预处理语料数据的文本内容进行分词,生成由若干分词单元组成的若干句子集合;计算若干句子集合中各句子与模板句的语义相似度,选取语义相似度超过第一判断阈值的句子,记为关键句;识别关键句中的关键词组,确定文本类型。本发明通过识别语料数据中的关键句、关键词,确定文本类型。并且通过去除语料数据中的无效信息,避免了无效信息被误判为关键信息,从而提高了文本类型识别的准确度。 |
