一种基于视觉效果的正文识别算法
基本信息
申请号 | CN201410234558.6 | 申请日 | - |
公开(公告)号 | CN105302805A | 公开(公告)日 | 2016-02-03 |
申请公布号 | CN105302805A | 申请公布日 | 2016-02-03 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 吕永强 | 申请(专利权)人 | 广州市邦富软件有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510663 广东省广州市天河区天河软件园高唐新建区广州互联网产业园1号楼第五层A501-A510房 | ||
法律状态 | - |
摘要
摘要 | 一种基于视觉效果的正文识别算法,所述算法步骤包括:(1)取出一篇网页,提取标题和正文;(2)提取该页面的视觉表达部分,如HTML?Tag、JS和CSS;(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;(6)通过字体尺寸列表获得字体权重排序;(7)通过字体颜色与页面对比,获得字体颜色权重列表;(8)通过字符串密度获得密度权重列表;(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。 |
