基于语料库的垂直行业文本分类方法
基本信息
申请号 | CN202011424476.X | 申请日 | - |
公开(公告)号 | CN112784040A | 公开(公告)日 | 2021-05-11 |
申请公布号 | CN112784040A | 申请公布日 | 2021-05-11 |
分类号 | G06F16/35;G06F40/216;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 王琼;杨波;魏军;何清素;杨仕博;陈佐虎;李策;梁瑞艳;王华;郭芳琳 | 申请(专利权)人 | 甘肃同兴智能科技发展有限责任公司 |
代理机构 | 北京惠智天成知识产权代理事务所(特殊普通合伙) | 代理人 | 王芳 |
地址 | 730050 甘肃省兰州市七里河区西津东路629号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于语料库的垂直行业文本分类方法,通过首先构建一个垂直行业父语料库,然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库,并对各个子语料库中的单词进行聚类,形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度,从而对垂直行业文本进行分类,本方法简单、易于实现,且效率和性能较好。 |
