一种从PubMed文献筛选基因关键词的方法

基本信息

申请号 CN201910571336.6 申请日 -
公开(公告)号 CN110349632B 公开(公告)日 2019-10-18
申请公布号 CN110349632B 申请公布日 2019-10-18
分类号 G16B50/10(2019.01)I 分类 -
发明人 汪佳宏;章建平;黄仲曦;潘星华 申请(专利权)人 广州序科码生物技术有限责任公司
代理机构 广州三环专利商标代理有限公司 代理人 南方医科大学;广州序科码生物技术有限责任公司
地址 510000广东省广州市沙太南路1023号-1063号
法律状态 -

摘要

摘要 一种从PubMed文献筛选基因关键词的方法。本发明提供了一种从文献数据库筛选基因关键词的方法,包括以下步骤:从文献数据库的摘要中识别基因相关摘要或/和基因相关句子,建立基因相关文献的全文索引,从术语库中筛选关键词,通过基因‑关键词关联评分计算公式获得基因和关键词的关联概率评分,筛选出与基因密切相关的关键词。本发明构建的方法一方面扩宽了事先定义的术语词汇库,除了GO术语外,整合其他权威数据库的术语;另一方面引入新的关键词筛选方法,对基因与术语存在关联的概率进行评分,综合基因和关键词共发生于摘要和句子的次数,筛选更牢固的基因‑关键词关联。