用于聚焦爬行的URL和锚文本分析
基本信息
申请号 | CN200780101492.1 | 申请日 | - |
公开(公告)号 | CN101855632B | 公开(公告)日 | 2013-10-30 |
申请公布号 | CN101855632B | 申请公布日 | 2013-10-30 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 冯是聪;熊宇红;张立 | 申请(专利权)人 | 上海慧与有限公司 |
代理机构 | 北京德琦知识产权代理有限公司 | 代理人 | 严芬;罗正云 |
地址 | 100022 中国北京市建国路112号惠普大厦 | ||
法律状态 | - |
摘要
摘要 | 公开了用于聚焦爬行的URL和锚文本分析的系统的方法。在一示例性实施例中,一种方法可包括通过以下动作来训练聚焦爬行器:获取网站的至少URL或锚文本的训练集、计算训练集的分数、以及提取训练集的多个特征、以及计算多个特征中的每一个的分数。特征标识包含在网站中的关键信息。该方法还可包括在其他网站上执行经训练的聚焦爬行器。 |
