一种内容搜索方法及装置

基本信息

申请号 CN201910270479.3 申请日 -
公开(公告)号 CN109992647B 公开(公告)日 2021-11-12
申请公布号 CN109992647B 申请公布日 2021-11-12
分类号 G06F16/33(2019.01)I;G06F40/30(2020.01)I 分类 计算;推算;计数;
发明人 任宁;卢彦博;晋耀红;李德彦 申请(专利权)人 鼎富智能科技有限公司
代理机构 北京弘权知识产权代理有限公司 代理人 逯长明;许伟群
地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座6层630室
法律状态 -

摘要

摘要 本申请实施例提供了一种内容搜索方法及装置,能够解析用户输入的搜索表达式,以获取搜索表达式包含的关键字和距离约束条件;根据关键字从预处理的语料中获取包含任意关键字的文章,得到文章集合;从文章集合中遍历获取同时包含所有关键字的句子,得到第一句子集合;根据搜索表达式对关键字形成的顺序约束条件,从第一句子集合中获取满足顺序约束条件的句子,得到第二句子集合;从第二句子集合中获取满足距离约束条件的句子,作为搜索目标句。由此,通过对语料进行层层过滤,使筛选过后的语料在语义上逐渐收敛,使最终得到搜索目标句在语义层面具有一致性。另外,通过对语料的层层过滤,逐渐缩小了语料规模,还提高了语料搜索速度和效率。