基于语料库的垂直行业文本分类方法

基本信息

申请号 CN202011424476.X 申请日 -
公开(公告)号 CN112784040A 公开(公告)日 2021-05-11
申请公布号 CN112784040A 申请公布日 2021-05-11
分类号 G06F16/35;G06F40/216;G06K9/62 分类 计算;推算;计数;
发明人 王琼;杨波;魏军;何清素;杨仕博;陈佐虎;李策;梁瑞艳;王华;郭芳琳 申请(专利权)人 甘肃同兴智能科技发展有限责任公司
代理机构 北京惠智天成知识产权代理事务所(特殊普通合伙) 代理人 王芳
地址 730050 甘肃省兰州市七里河区西津东路629号
法律状态 -

摘要

摘要 本发明公开了基于语料库的垂直行业文本分类方法,通过首先构建一个垂直行业父语料库,然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库,并对各个子语料库中的单词进行聚类,形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度,从而对垂直行业文本进行分类,本方法简单、易于实现,且效率和性能较好。