一种主题词生成模型的训练方法及计算设备
基本信息
申请号 | CN202110710401.6 | 申请日 | - |
公开(公告)号 | CN113609841A | 公开(公告)日 | 2021-11-05 |
申请公布号 | CN113609841A | 申请公布日 | 2021-11-05 |
分类号 | G06F40/216(2020.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N20/10(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李辉;陈永生 | 申请(专利权)人 | 北京齐尔布莱特科技有限公司 |
代理机构 | 北京思睿峰知识产权代理有限公司 | 代理人 | 高攀;赵爱军 |
地址 | 100080北京市海淀区丹棱街3号B座10层1010室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。本发明一并公开了相应的装置、计算设备及可读存储介质。 |
