一种对短文本自动分类和识别主题词的方法
基本信息
申请号 | CN201510755236.0 | 申请日 | - |
公开(公告)号 | CN106649255A | 公开(公告)日 | 2017-05-10 |
申请公布号 | CN106649255A | 申请公布日 | 2017-05-10 |
分类号 | G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 不公告发明人 | 申请(专利权)人 | 江苏引跑网络科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 211100 江苏省南京市江宁开发区将军大道37号翠屏科创园3层1306室 | ||
法律状态 | - |
摘要
摘要 | 本发明的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个预置的大容量分类词库,以此绕过对短文本分类的聚类算法要求。短文本将通过与大容量分类词库的词条逐一比对获取有助于分类和识别主题词的特征信息。其方法是,短文本通过分词,切分成若干词语序列;对首句或首个段落的词语增加权重;分类词库词条也同样分词,这样将获得两对词语序列,对这两对词语序列做交叉比对,如有匹配将按词语自身的权重倍率累加命中计数,对每个词条计算命中计数值并适当修正后,最终返回的分类是计数值最高的词条。 |
