一种中医文献内容分析方法和装置

基本信息

申请号 CN202111581455.3 申请日 -
公开(公告)号 CN114444467A 公开(公告)日 2022-05-06
申请公布号 CN114444467A 申请公布日 2022-05-06
分类号 G06F40/211(2020.01)I;G06F40/237(2020.01)I 分类 计算;推算;计数;
发明人 冯岩松;杨威;胡楠;贾爱霞 申请(专利权)人 中国中医科学院中医基础理论研究所
代理机构 北京君尚知识产权代理有限公司 代理人 司立彬
地址 100871北京市海淀区颐和园路5号北京大学
法律状态 -

摘要

摘要 本发明公开了一种中医文献内容分析方法和装置。本方法为:对获取的文言文本进行预处理,得到无监督预训练数据对所选大规模语言模型Bert进行预训练;将上述预训练后的模型Bert与条件随机场模型结合得到序列标注模型;用标注的中医文献内容分析数据对得到的序列标注模型进行训练;将待分析中医文献的每个段落切分成子句输入所述序列标注模型,得到每个子句的编码序列,根据子句的编码序列生成对应子句所属标签的概率分布序列;将子句的概率分布序列输入条件随机场模型,得到子句的序列标注为不同标签序列的概率;选择最大概率的标签序列作为预测结果,合并相邻预测为同标签的子句,连接文献各个段落,得到所述中医文献的内容分析结果。