一种网页内容抽取的方法及装置

基本信息

申请号 CN201310016689.2 申请日 -
公开(公告)号 CN103064827A 公开(公告)日 2013-04-24
申请公布号 CN103064827A 申请公布日 2013-04-24
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 兰晶;徐慎昆 申请(专利权)人 盘古文化传播有限公司
代理机构 北京中博世达专利商标代理有限公司 代理人 盘古文化传播有限公司
地址 100162 北京市大兴区北兴路(东段)2号星光影视园盘古搜索大厦
法律状态 -

摘要

摘要 本发明公开一种网页内容抽取的方法及装置,涉及信息技术领域,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。本发明通过将HTML源码转换为对应的文档树结构,并根据文档树结构的TITLE标签,确定网页标题;根据网页标题,确定网页中的网页元素,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据网页标题,以及文档树结构的文本块的密度和文字数,确定各个文本块的属性;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明提供的方案适于进行网页内容抽取时采用。