文本类型识别方法及装置

基本信息

申请号 CN202110967393.3 申请日 -
公开(公告)号 CN113673243B 公开(公告)日 2022-04-22
申请公布号 CN113673243B 申请公布日 2022-04-22
分类号 G06F40/289(2020.01)I;G06F16/28(2019.01)I;G06F40/216(2020.01)I;G06F40/30(2020.01)I 分类 计算;推算;计数;
发明人 杨一帆;刘悦华 申请(专利权)人 上海浦东华宇信息技术有限公司
代理机构 北京中索知识产权代理有限公司 代理人 胡大成
地址 201203上海市浦东新区中国(上海)自由贸易试验区祖冲之路899号2幢4层
法律状态 -

摘要

摘要 本申请提供一种文本类型识别方法及装置,用于解决现有技术中文本类型识别准确度低的技术问题。其中,一种文本类型识别方案,包括:获取语料数据;去除所述语料数据中的无效信息,生成预处理语料数据;对所述预处理语料数据的文本内容进行分词,生成由若干分词单元组成的若干句子集合;计算若干句子集合中各句子与模板句的语义相似度,选取语义相似度超过第一判断阈值的句子,记为关键句;识别关键句中的关键词组,确定文本类型。本发明通过识别语料数据中的关键句、关键词,确定文本类型。并且通过去除语料数据中的无效信息,避免了无效信息被误判为关键信息,从而提高了文本类型识别的准确度。