一种基于自然语言处理的公司行业分类计算方法

基本信息

申请号 CN201811624587.8 申请日 -
公开(公告)号 CN109710765A 公开(公告)日 2019-05-03
申请公布号 CN109710765A 申请公布日 2019-05-03
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 王凯锋; 吴承霖; 金立达 申请(专利权)人 厦门笨鸟电子商务有限公司
代理机构 厦门市新华专利商标代理有限公司 代理人 厦门笨鸟电子商务有限公司
地址 361000 福建省厦门市思明区前埔路506、508号国金广场B座6层01、02单元
法律状态 -

摘要

摘要 本发明公开了一种基于自然语言处理的公司行业分类计算方法,通过爬虫获取预分类公司的文本数据,对文本数据进行提取特征、降噪处理和训练词向量,并采用语言模型和迁移学习预训练分类模型后,对文本数据进行层级化分类,实现对目标公司的分类。本发明流程简单、效率高,节省人力物力;本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类,大大提高了分类的精准度;本发明的模型可以接受不同长度、形式的文本输入,不需要对模型作出任何调整,应用范围更广、实用性更高。