一种基于人机协同的小样本实体多领域分类方法

基本信息

申请号 CN202010088532.0 申请日 -
公开(公告)号 CN111274404A 公开(公告)日 2020-06-12
申请公布号 CN111274404A 申请公布日 2020-06-12
分类号 G06F16/35(2019.01)I 分类 -
发明人 高汕;李健;宗畅;吴海燕 申请(专利权)人 杭州量知数据科技有限公司
代理机构 杭州求是专利事务所有限公司 代理人 杭州量知数据科技有限公司
地址 310000浙江省杭州市萧山区经济技术开发区明星路371号1幢601室
法律状态 -

摘要

摘要 本发明公开了一种实体多领域分类的方法,该方法一开始通过众包方式获取实体在各领域的属性语义词汇,然后利用语义词汇对实体的属性文本进行匹配,得到匹配结果后运用计算公式计算出分数并与阈值比较得出分类结果,进而以专家知识校验结果正确性生成小批量训练样本,在小样本基础上运用网格搜索自动调整公式系数提高召回率和准确率,通过持续自动化处理分类效果的优化,解决了人工实体分类需要查看大量文本的问题。本发明充分利用众包、人机协同、半监督学习方式解决实体分类的问题,能在缺少标注数据的情况下,快速实施实体的多领域分类。