一种主题词生成模型的训练方法及计算设备

基本信息

申请号 CN202110710401.6 申请日 -
公开(公告)号 CN113609841A 公开(公告)日 2021-11-05
申请公布号 CN113609841A 申请公布日 2021-11-05
分类号 G06F40/216(2020.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N20/10(2019.01)I 分类 计算;推算;计数;
发明人 李辉;陈永生 申请(专利权)人 北京齐尔布莱特科技有限公司
代理机构 北京思睿峰知识产权代理有限公司 代理人 高攀;赵爱军
地址 100080北京市海淀区丹棱街3号B座10层1010室
法律状态 -

摘要

摘要 本发明公开了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。本发明一并公开了相应的装置、计算设备及可读存储介质。