短语挖掘方法及装置
基本信息
申请号 | CN201610388226.2 | 申请日 | - |
公开(公告)号 | CN107463548B | 公开(公告)日 | 2021-04-27 |
申请公布号 | CN107463548B | 申请公布日 | 2021-04-27 |
分类号 | G06F40/289;G06F40/47 | 分类 | 计算;推算;计数; |
发明人 | 史黎鑫;张海波;赵宇;骆卫华;林锋;卞华明;管陶然;刘禹 | 申请(专利权)人 | 阿里巴巴(中国)网络技术有限公司 |
代理机构 | 北京博思佳知识产权代理有限公司 | 代理人 | 李威;林祥 |
地址 | 浙江省杭州市滨江区网商路699号 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种短语挖掘方法及装置,该方法可以包括:通过预配置的组合策略从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语,且所述候选短语对应于所述组合策略中的至少一个子策略;从所述候选短语集合中,筛选出满足预设质量条件的短语。通过本申请的技术方案,可以扩展候选短语集合的覆盖度,避免漏失潜在的高质量短语,以实现对高质量短语的准确挖掘。 |