一种中医文献内容分析方法和装置
基本信息
申请号 | CN202111581455.3 | 申请日 | - |
公开(公告)号 | CN114444467A | 公开(公告)日 | 2022-05-06 |
申请公布号 | CN114444467A | 申请公布日 | 2022-05-06 |
分类号 | G06F40/211(2020.01)I;G06F40/237(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 冯岩松;杨威;胡楠;贾爱霞 | 申请(专利权)人 | 中国中医科学院中医基础理论研究所 |
代理机构 | 北京君尚知识产权代理有限公司 | 代理人 | 司立彬 |
地址 | 100871北京市海淀区颐和园路5号北京大学 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种中医文献内容分析方法和装置。本方法为:对获取的文言文本进行预处理,得到无监督预训练数据对所选大规模语言模型Bert进行预训练;将上述预训练后的模型Bert与条件随机场模型结合得到序列标注模型;用标注的中医文献内容分析数据对得到的序列标注模型进行训练;将待分析中医文献的每个段落切分成子句输入所述序列标注模型,得到每个子句的编码序列,根据子句的编码序列生成对应子句所属标签的概率分布序列;将子句的概率分布序列输入条件随机场模型,得到子句的序列标注为不同标签序列的概率;选择最大概率的标签序列作为预测结果,合并相邻预测为同标签的子句,连接文献各个段落,得到所述中医文献的内容分析结果。 |
