一种通用文本挖掘方法和系统
基本信息
申请号 | CN201510135053.9 | 申请日 | - |
公开(公告)号 | CN106156035B | 公开(公告)日 | 2019-10-22 |
申请公布号 | CN106156035B | 申请公布日 | 2019-10-22 |
分类号 | G06F16/26 | 分类 | 计算;推算;计数; |
发明人 | 孟涛;李佳静 | 申请(专利权)人 | 南京网感至察信息科技有限公司 |
代理机构 | 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人 | 南京网感至察信息科技有限公司 |
地址 | 210014 江苏省南京市秦淮区光华路129-3号南京白下高新技术产业园区A1区5层511室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种通用文本挖掘的方法,其中包括:步骤1,运行网络爬虫,加载挖掘范围内的挖掘对象,步骤2,对所述挖掘对象进行实际文本提取,得到实际文本,步骤3,将所述实际文本形成概念标注图,步骤4,根据与挖掘目标对应的所述概念和概念之间的关系,将所述概念和关系编译形成字节码,进而形成指令图,步骤5,将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果。本发明的通用文本挖掘方法能够对挖掘目标、挖掘范围和挖掘方法等进行形式化的描述,达到在不同领域进行文本检索和挖掘的效果。 |
