数字文件信息实体标注和识别方法、装置和系统
基本信息
申请号 | CN202110848292.4 | 申请日 | - |
公开(公告)号 | CN113299375A | 公开(公告)日 | 2021-08-24 |
申请公布号 | CN113299375A | 申请公布日 | 2021-08-24 |
分类号 | G16H30/40(2018.01)I;G16H30/20(2018.01)I;G16H50/70(2018.01)I;G06F40/295(2020.01)I;G06Q40/08(2012.01)I;G06K9/00(2006.01)I | 分类 | 物理 |
发明人 | 陈冠伟 | 申请(专利权)人 | 好心情健康产业集团有限公司 |
代理机构 | 北京和信华成知识产权代理事务所(普通合伙) | 代理人 | 张永辉 |
地址 | 100080北京市海淀区北四环西路52号16层1601、1602房间 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种数字文件信息实体标注和识别方法、系统及设备,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。本发明通过模型训练,解决了海量数字文件的信息实体标注的时效和成本问题,并且通过程序实现的方式让非算法人员可以快速实现操作,属于工具类的极大创新,可以广泛应用于数字应用领域的数据标注,为互联网业务和资源对接等提供了便利,大量节约时间和资金成本。 |
