一种面向海量互联网信息的文本语义建模方法
基本信息
申请号 | CN201610075760.8 | 申请日 | - |
公开(公告)号 | CN107038163A | 公开(公告)日 | 2017-08-11 |
申请公布号 | CN107038163A | 申请公布日 | 2017-08-11 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 李华康;钟鑫;杨天楚;杨天若 | 申请(专利权)人 | 常州普适信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 213014 江苏省常州市新北区河海中路85号浙江大学常州工业技术研究院215 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种互联网语义模型发现方法,具体涉及一种基于海量互联网信息的文本语义建模方法。本发明主要解决自媒体时代海量互联网信息的不规则性、弱可信与弱可用性带来的文本信息价值低、可用性不高等问题,从技术上构建海量互联网信息的文本语义模型并做系统实现。本发明结合一个分词词库、一个词性词库和一个标准句式库,对海量互联网文本信息进行分句、分词并给出词性标注,采用短句窗位移的方法实现高覆盖率和高精度的词性路径识别功能。同时本发明对词性路径进行精细化的提取实现三元组模式识别,并利用机器学习的方法实现三元组模型的自反馈调节功能。本发明的以上两个核心步骤克服了互联网文本信息的不规则性和弱可信问题,还可以用在如情感分析、质量分析的需要量化分析的应用领域。 |
