一种面向企业信息的行业全息画像构建方法及系统
基本信息
申请号 | CN201610718328.6 | 申请日 | - |
公开(公告)号 | CN106339806A | 公开(公告)日 | 2017-01-18 |
申请公布号 | CN106339806A | 申请公布日 | 2017-01-18 |
分类号 | G06Q10/06(2012.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 袁伟;柳欢;张建伟;蔡明;王娟;艾申彪;陈涛 | 申请(专利权)人 | 北京创业公社数据科技有限公司 |
代理机构 | 北京永创新实专利事务所 | 代理人 | 祗志洁 |
地址 | 100080 北京市海淀区中关村大街15号国际创客中心创业公社C24 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种面向企业信息的行业全息画像构建方法及系统,属于信息技术领域。本系统包括企业名称抓取模块、企业文本描述信息模块、中文切词模块、词频统计模块、有效词集获取模块、有效行业词集获取模块和企业行业全息画像获取模块。本方法通过网络抓取企业名称,获取每个企业的文本描述信息,对文本描述信息进行切词、剔除常用词,得到有效词集,计算有效词与一级、二级行业国家标准名称的相似度分数,剔除小于阈值的词,对每个企业,根据每类文本描述信息与相似度分数,计算企业所属的一级、二级行业,取对应的有效行业词集作为企业的行业全息画像。本发明可大规模快速获取企业行业画像信息,有效行业词较人工标注的词更加全面、精准。 |
