一种面向学术论文的术语抽取方法及系统
基本信息
申请号 | CN201610631256.1 | 申请日 | - |
公开(公告)号 | CN106294320B | 公开(公告)日 | 2019-04-12 |
申请公布号 | CN106294320B | 申请公布日 | 2019-04-12 |
分类号 | G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 郑胜;蒋丹;徐涛;张胜;周可;夏明 | 申请(专利权)人 | 武汉数为科技有限公司 |
代理机构 | 武汉东喻专利代理事务所(普通合伙) | 代理人 | 方可 |
地址 | 430074 湖北省武汉市东湖高新区光谷大道3号未来之光3栋11层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种面向学术论文的术语抽取方法及系统,对学术论文语料库进行预处理,包括文本块标注、文本块筛选、分词及词性标注、噪声词去除;对标题、摘要、关键字文本块分别行候选术语抽取,形成候选术语集;对候选术语集中的单词型术语和复合词型术语分别进行筛选过滤,得到新的候选术语集;利用层次分析法根据候选术语的位置信息确定各个位置的权重,并进行综合评分,并根据评分对候选术语进行排序,取TopN或者评分大于阈值的候选术语作为抽取出的术语;本发明充分考虑到学术论文的术语分布特点以及学术论文的类别信息的问题,提高了学术论文术语抽取的准确率和召回率。 |
