一种基于自然语言处理的公司行业分类计算方法
基本信息
申请号 | CN201811624587.8 | 申请日 | - |
公开(公告)号 | CN109710765A | 公开(公告)日 | 2019-05-03 |
申请公布号 | CN109710765A | 申请公布日 | 2019-05-03 |
分类号 | G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王凯锋; 吴承霖; 金立达 | 申请(专利权)人 | 厦门笨鸟电子商务有限公司 |
代理机构 | 厦门市新华专利商标代理有限公司 | 代理人 | 厦门笨鸟电子商务有限公司 |
地址 | 361000 福建省厦门市思明区前埔路506、508号国金广场B座6层01、02单元 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于自然语言处理的公司行业分类计算方法,通过爬虫获取预分类公司的文本数据,对文本数据进行提取特征、降噪处理和训练词向量,并采用语言模型和迁移学习预训练分类模型后,对文本数据进行层级化分类,实现对目标公司的分类。本发明流程简单、效率高,节省人力物力;本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类,大大提高了分类的精准度;本发明的模型可以接受不同长度、形式的文本输入,不需要对模型作出任何调整,应用范围更广、实用性更高。 |
