一种快速分析Web信息的方法
基本信息
申请号 | CN201610227277.7 | 申请日 | - |
公开(公告)号 | CN105930369A | 公开(公告)日 | 2016-09-07 |
申请公布号 | CN105930369A | 申请公布日 | 2016-09-07 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张毅;梁超 | 申请(专利权)人 | 南京新与力文化传播有限公司 |
代理机构 | 苏州广正知识产权代理有限公司 | 代理人 | 南京新与力文化传播有限公司 |
地址 | 210019 江苏省南京市建邺区嘉陵江东街18号国家广告产业园05栋17层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种快速分析Web信息的方法,包括以下步骤:步骤1:链接提取,将Web网页进行分类,抽取链接,每一个链接信息内容包括:URL地址、锚文本、标题文本和文件名信息;步骤2:链接排序和归类;步骤3:链接样本的采样;步骤4:标签样本的采样;通过使用本发明的技术方案,可以在海量的Web信息中快速准确找到目标信息,减少获取成本,并可以产生对Web信息的链接抽取进行自动划分比例,对关键词标签进行自动打分排序,通过针对关键词的分值实时调整链接顺序等有益技术效果。 |
