样本量数据提取方法、装置、电子设备及存储介质

基本信息

申请号 CN202111052101.X 申请日 -
公开(公告)号 CN113836892A 公开(公告)日 2021-12-24
申请公布号 CN113836892A 申请公布日 2021-12-24
分类号 G06F40/211(2020.01)I;G06F40/242(2020.01)I;G06F16/35(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G16H10/20(2018.01)I;G16H70/00(2018.01)I 分类 计算;推算;计数;
发明人 王则远;周永杰 申请(专利权)人 灵犀量子(北京)医疗科技有限公司
代理机构 北京路浩知识产权代理有限公司 代理人 王宇杨
地址 100161北京市丰台区南四环西路186号四区5号楼5层09室
法律状态 -

摘要

摘要 本发明提供一种样本量数据提取方法、装置、电子设备及存储介质,该方法包括:通过预设规则将临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献;通过预设分句规则将关键句可提取临床研究文献的摘要数据进行分句,得到方法数据的第一关键句数据;将方法数据和非方法数据作为训练数据集对第一预训练模型进行训练,得到数据抽取模型,基于数据抽取模型提取关键句不可提取临床研究文献,得到第二关键句数据;将第一关键句数据和第二关键句数据作为关键句数据集合对第二预训练模型进行训练,得到数据生成模型,基于数据生成模型生成样本量数据。本发明通过数据抽取模型和数据生成模型提取数据,提升了样本量数据的准确性。