分类标签数据获取方法以及装置

基本信息

申请号 CN201710147921.4 申请日 -
公开(公告)号 CN106909694A 公开(公告)日 2017-06-30
申请公布号 CN106909694A 申请公布日 2017-06-30
分类号 G06F17/30 分类 计算;推算;计数;
发明人 郑巨隆;宋亮;胡晓峰 申请(专利权)人 普玄物联科技(杭州)有限公司
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 代理人 杭州普玄科技有限公司
地址 310000 浙江省杭州市滨江区长河街道滨盛路1766号1006室
法律状态 -

摘要

摘要 本发明提供了一种分类标签数据获取方法以及装置,涉及移动互联网领域,所述方法包括:电子设备在基于网络返回的页面数据渲染得到的界面中执行预设的操作步骤,将执行所述预设的操作步骤后在所述界面中显示的数据以图片进行保存;识别所述图片,得到所述图片中的文本信息;基于获取的关键词信息,得到所述文本信息中与所述关键词信息相关的抽取信息;接收用户输入的纠错信息,基于所述纠错信息对所述抽取信息进行纠错,得到纠错后的抽取信息作为目标文档;基于预先建立的主题分类模型,计算得到所述目标文档的分类标签。该方法避免了运用传统爬虫程序进行分类标签数据获取时,需要花费很长时间来破解一个反爬虫方案,而且可能无法破解的问题。