一种半监督的领域词挖掘与分类的方法和设备

基本信息

申请号 CN201710748366.0 申请日 -
公开(公告)号 CN107577739B 公开(公告)日 2020-04-10
申请公布号 CN107577739B 申请公布日 2020-04-10
分类号 G06F16/33;G06F16/35;G06K9/62 分类 计算;推算;计数;
发明人 高登科;姚佳 申请(专利权)人 广东惠禾科技发展有限公司
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 代理人 深圳市空谷幽兰人工智能科技有限公司;广东惠禾科技发展有限公司
地址 518054 广东省深圳市南山区粤海街道学府路2388号怡化金融科技大厦14楼01-02单元
法律状态 -

摘要

摘要 本发明实例提出了一种半监督的领域词挖掘与分类的方法和设备,其中该方法包括:对领域相关语料进行预处理以及构建种子词表和词语相似度矩阵,挖掘候选领域词以及确定候选领域词的相似度分布,对筛选出的领域词进行类别的标记;以此通过半监督的方式,无需大量标注数据,只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。