一种文本实体抽取方法
基本信息
申请号 | CN201910472799.7 | 申请日 | - |
公开(公告)号 | CN110188359A | 公开(公告)日 | 2019-08-30 |
申请公布号 | CN110188359A | 申请公布日 | 2019-08-30 |
分类号 | G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 金霞 | 申请(专利权)人 | 成都火石创造科技有限公司 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 刘静;邱启旺 |
地址 | 610200 四川省成都市成都天府国际生物城(双流区生物城中路二段18号) | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种文本实体抽取方法,本发明利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本发明没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,提高抽取质量。 |
