一种基于URL的互联网信息分类识别方法及系统
基本信息
申请号 | CN201510280235.5 | 申请日 | - |
公开(公告)号 | CN106294442A | 公开(公告)日 | 2017-01-04 |
申请公布号 | CN106294442A | 申请公布日 | 2017-01-04 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王栋 | 申请(专利权)人 | 上海池乐信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 201206 上海市浦东新区宁桥路600号第五幢202室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于URL的互联网信息分类识别方法,通过从互联网抓取模式化的信息;基于关键字对抓取的信息进行人工分类处理以获得分类信息来建立分类信息库;向知识库中导入分类信息库中的分类信息;根据知识库中的分类信息结合URL结构对互联网信息的URL进行分层识别及分类;输出识别和分类的结果,通过机器识别和人工识别,准确率可以达到极高,同时因为不需要针对海量的文本内容进行文本分析或者图像识别,只是网址的分层识别,服务响应能力可以无限提高,还把所有的知识库加载到内存中,并不需要进行硬盘IO,减少了对系统资源的消耗,基于分层的概念,因为键值的简单,因此在分类查询的时候,就可以做到对系统资源的最小消耗。 |
