网页自动分类方法和系统

基本信息

申请号 CN201010022549.2 申请日 -
公开(公告)号 CN101814083A 公开(公告)日 2010-08-25
申请公布号 CN101814083A 申请公布日 2010-08-25
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 魏亮;丁力;韩雪岭;郭为;张薇 申请(专利权)人 上海复歌信息科技有限公司
代理机构 上海智信专利代理有限公司 代理人 上海复歌信息科技有限公司
地址 200437 上海市杨浦区邯郸路100号61号楼207室
法律状态 -

摘要

摘要 本发明公开了一种网页自动分类方法和系统,该方法包括以下步骤:S1、搜索与客户网页相关的网站网页,从中抓取出网页的标题和变数据信息,形成网页列表集合;S2、对所述网页列表集合中的文字进行处理,形成分类关键词列表集合;S3、统计所述分类关键词列表集合中的分类关键词在所有网页中出现的频率,使每一个网页对应一个分类关键词频率向量;S4、建立统计模型,计算各目标网页和客户网页之间的分类关键词频率向量距离,得到目标网页和客户网页之间的相关度,基于该相关度对各目标网页进行自动分类。本发明能自动发现最优的基于无偏估计的网页,从而为客户推荐大量的优质潜在网页进行链接交换。