基于马尔可夫随机场的网页正文提取方法

基本信息

申请号 CN201310210384.5 申请日 -
公开(公告)号 CN103309961B 公开(公告)日 2015-07-15
申请公布号 CN103309961B 申请公布日 2015-07-15
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 柳立宁 申请(专利权)人 北京智海创讯信息技术有限公司
代理机构 北京爱普纳杰专利代理事务所(特殊普通合伙) 代理人 北京智海创讯信息技术有限公司
地址 100095 北京市海淀区清河三街同源大厦9层917室
法律状态 -

摘要

摘要 本发明公开了一种网页正文的提取方法及装置,该方法包括如下步骤:顺序解析HTML文本,对HTML文本进行预处理;对预处理后的HTML文本抽取标签文本窗,获得标签文本窗集合,标签文本窗为标签包围的内容文本及其相关属性;对标签文本窗依据相邻关系构建马尔可夫随机场模型;以文本长度和标签类型为基本特征,采用最小偏差阈值法初始化马尔可夫场模型;根据标签文本窗的行号及相邻窗的字符间隔,采用ICM方法对马尔科夫随机场模型进行优化;以及根据优化后的马尔科夫随机场模型重构正文,得到抽取的正文,本发明可应用于信息检索领域的自动文摘和自动分类系统,具有抽取精度高、抽取速度快、维护代价低、适应性强、灵活性高等优点。