一种基于复合边界信息的序列标注方法及系统

基本信息

申请号 CN201911056445.0 申请日 -
公开(公告)号 CN111008283A 公开(公告)日 2020-04-14
申请公布号 CN111008283A 申请公布日 2020-04-14
分类号 G06F16/36(2019.01)I 分类 计算;推算;计数;
发明人 孟茜;夏天;刘安庭 申请(专利权)人 中电药明数据科技(成都)有限公司
代理机构 北京慕达星云知识产权代理事务所(特殊普通合伙) 代理人 曹鹏飞
地址 610041四川省成都市高新区仁和街39号6栋2层1号
法律状态 -

摘要

摘要 本发明公开了一种基于复合边界信息的序列标注方法及系统,该方法包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;对所述非结构化文本数据,预训练获得词边界特征向量;将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;通过所述联合模型,对待标注文本进行序列标注。该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。