基于词向量进行近似搜索快速提取广告文本主题的方法

基本信息

申请号 CN201910852577.8 申请日 -
公开(公告)号 CN110717329A 公开(公告)日 2020-01-21
申请公布号 CN110717329A 申请公布日 2020-01-21
分类号 G06F40/289;G06F40/247;G06F40/242;G06F16/31;G06F16/33;G06K9/62;G06Q30/02 分类 计算;推算;计数;
发明人 李新;李征宇;邵品贤;吴小刚 申请(专利权)人 上海开域信息科技有限公司
代理机构 宿迁市永泰睿博知识产权代理事务所(普通合伙) 代理人 上海开域信息科技有限公司
地址 200000 上海市长宁区来福士T1栋28层
法律状态 -

摘要

摘要 本发明公开了一种基于词向量进行近似搜索快速提取广告文本主题的方法,包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;本发明操作方便,采用本发明可以将GPU‑DMM生成模型中单个查询词的搜索复杂度从0(N)下降到0(log N),加速了整个广告文本主题提取过程,大大提升提取速度,整个流程可以在数小时内完成离线处理和无监督训练,能够应对互联网广告行业的大规模数据量与近实时性要求,可以做到按天更新或者按小时更新用户兴趣标签。