利用语义特征的科技创新领域中文关键短语抽取方法及系统
基本信息
申请号 | CN202110600989.X | 申请日 | - |
公开(公告)号 | CN113221559A | 公开(公告)日 | 2021-08-06 |
申请公布号 | CN113221559A | 申请公布日 | 2021-08-06 |
分类号 | G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06K9/62;G06F16/335;G06F16/36 | 分类 | 计算;推算;计数; |
发明人 | 庄越挺;宗畅;陈泽群;鲁伟明;邵健 | 申请(专利权)人 | 杭州量知数据科技有限公司 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 傅朝栋;张法高 |
地址 | 310058 浙江省杭州市西湖区余杭塘路866号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选。该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。 |
