一种文本实体抽取方法

基本信息

申请号 CN201910472799.7 申请日 -
公开(公告)号 CN110188359A 公开(公告)日 2019-08-30
申请公布号 CN110188359A 申请公布日 2019-08-30
分类号 G06F17/27 分类 计算;推算;计数;
发明人 金霞 申请(专利权)人 成都火石创造科技有限公司
代理机构 杭州求是专利事务所有限公司 代理人 刘静;邱启旺
地址 610200 四川省成都市成都天府国际生物城(双流区生物城中路二段18号)
法律状态 -

摘要

摘要 本发明公开了一种文本实体抽取方法,本发明利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本发明没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,提高抽取质量。