一种基于复合边界信息的序列标注方法及系统
基本信息
申请号 | CN201911056445.0 | 申请日 | - |
公开(公告)号 | CN111008283A | 公开(公告)日 | 2020-04-14 |
申请公布号 | CN111008283A | 申请公布日 | 2020-04-14 |
分类号 | G06F16/36(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 孟茜;夏天;刘安庭 | 申请(专利权)人 | 中电药明数据科技(成都)有限公司 |
代理机构 | 北京慕达星云知识产权代理事务所(特殊普通合伙) | 代理人 | 曹鹏飞 |
地址 | 610041四川省成都市高新区仁和街39号6栋2层1号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于复合边界信息的序列标注方法及系统,该方法包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;对所述非结构化文本数据,预训练获得词边界特征向量;将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;通过所述联合模型,对待标注文本进行序列标注。该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。 |
