一种基于深度学习的文本关键词提取方法

基本信息

申请号 CN201610394935.1 申请日 -
公开(公告)号 CN106095749A 公开(公告)日 2016-11-09
申请公布号 CN106095749A 申请公布日 2016-11-09
分类号 G06F17/27(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 凌立刚;朱海鹏 申请(专利权)人 杭州量知数据科技有限公司
代理机构 杭州求是专利事务所有限公司 代理人 杭州量知数据科技有限公司
地址 310013 浙江省杭州市西湖区西溪路525号C楼492室
法律状态 -

摘要

摘要 本发明公开了一种基于深度学习的文本关键词提取方法。该方法首先需要训练一个循环神经网络模型,所使用的训练数据是大量的文本及其关键词,训练目标是最大化关键词基于文本的条件概率。对于每一组文本和关键词,首先将其转化为词向量,然后输入循环神经网络模型中,使用随机梯度下降方法更新网络参数。模型训练结束后,对于一段待提取关键词的文本,将其转化为词向量,输入到已经训练好的循环神经网络模型中,可以生成这段文本的关键词。本方法通过数据驱动学习了一个端到端的模型来实现文本关键词的提取,相对于传统的基于统计学和语言学的方法来说,本方法适应性更强,能够根据不同的训练数据得到不同的模型,从而提取出符合特定领域要求的关键词。