一种网页内容抽取的方法及装置
基本信息
申请号 | CN201310016689.2 | 申请日 | - |
公开(公告)号 | CN103064827A | 公开(公告)日 | 2013-04-24 |
申请公布号 | CN103064827A | 申请公布日 | 2013-04-24 |
分类号 | G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 兰晶;徐慎昆 | 申请(专利权)人 | 盘古文化传播有限公司 |
代理机构 | 北京中博世达专利商标代理有限公司 | 代理人 | 盘古文化传播有限公司 |
地址 | 100162 北京市大兴区北兴路(东段)2号星光影视园盘古搜索大厦 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种网页内容抽取的方法及装置,涉及信息技术领域,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。本发明通过将HTML源码转换为对应的文档树结构,并根据文档树结构的TITLE标签,确定网页标题;根据网页标题,确定网页中的网页元素,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据网页标题,以及文档树结构的文本块的密度和文字数,确定各个文本块的属性;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明提供的方案适于进行网页内容抽取时采用。 |
