网站分类方法及装置

基本信息

申请号 CN201810607605.5 申请日 -
公开(公告)号 CN108874996B 公开(公告)日 2021-08-24
申请公布号 CN108874996B 申请公布日 2021-08-24
分类号 G06F16/958(2019.01)I;G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/9532(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 蔡自彬;刘哲理;叶金辉;梁爽 申请(专利权)人 北京知道创宇信息技术股份有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 孙海杰
地址 100000北京市朝阳区阜通东大街1号院5号楼1单元311501室
法律状态 -

摘要

摘要 本申请实施例提供一种网站分类方法及装置。该方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此,采用本申请能够自动生成训练样本,无需人工处理,工作量小,同时在网页文本数据较少时,也能够实现准确的网站分类。