一套基于Sequence2Sequence的自动生成新闻标题的软件

基本信息

申请号 CN201911176058.0 申请日 -
公开(公告)号 CN110990385A 公开(公告)日 2020-04-10
申请公布号 CN110990385A 申请公布日 2020-04-10
分类号 G06F16/215;G06F16/28;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 何正方;欧阳欣 申请(专利权)人 昆明信息港传媒有限责任公司
代理机构 北京久维律师事务所 代理人 昆明信息港传媒有限责任公司
地址 650000 云南省昆明市高新区科高路1999号高新孵化君浩大厦A座9楼
法律状态 -

摘要

摘要 本发明专利公开了一套基于Sequence2Sequence的自动生成新闻标题的软件。软件包括模型训练和模型使用两部分。总体而言无论是模型训练还是模型使用,都需要数据清洗和分类。每个分类单独训练,并且每个分类训练好的模型需要单独保存,在新闻标题推理的过程中,首先需要将新闻分类,然后用对应的模型进行推理。简单来说Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑,生成新闻标题。传统的Seq2Seq模型对输入序列X缺乏区分度,因此,本发明专利引入了Attention Mechanism来解决这个问题。