一种网页分类方法及系统
基本信息
申请号 | CN201611117608.8 | 申请日 | - |
公开(公告)号 | CN106599155B | 公开(公告)日 | 2020-05-26 |
申请公布号 | CN106599155B | 申请公布日 | 2020-05-26 |
分类号 | G06F16/35;G06F40/284;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 谢念;周名扬;洪秋月;潘练;金尧;林飞;唐新民;沈智杰;景晓军 | 申请(专利权)人 | 任子行网络技术股份有限公司 |
代理机构 | 深圳市顺天达专利商标代理有限公司 | 代理人 | 任子行网络技术股份有限公司;北京亚鸿世纪科技发展有限公司 |
地址 | 100088 北京市海淀区学院南路12号院57号1层105-1室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。 |
