一种目标导向的短文本分类方法

基本信息

申请号 CN202011470327.7 申请日 -
公开(公告)号 CN113033202A 公开(公告)日 2021-06-25
申请公布号 CN113033202A 申请公布日 2021-06-25
分类号 G06F40/295(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 孙俊 申请(专利权)人 大有秦鼎(北京)科技有限公司
代理机构 - 代理人 -
地址 100089北京市海淀区中关村南大街2号B座8层902A
法律状态 -

摘要

摘要 本发明公开了一种目标导向的短文本分类方法,包括如下步骤:1、根据需要,对文本标注分类;2、根据需要,对文本分类标注名实体的位置和属性;3、搭建深度学习模型网络,其中,文本对应着数据输入,分类结果对应着步骤1中的分类结果,名实体识别对应着步骤2中的属性;4、设置训练时用的损失函数,这个损失函数是CRF损失函数和文本分类损失函数的加权和,通过试验调整这两个损失函数的权重,以使文本分类效果最优。本专利在训练时除了要准备文本分类的数据集,还需要对这个数据集标注名实体识别的结果。在训练过程中会设置网络的损失函数,这个函数是CRF损失函数和文本分类损失函数的加权和,权重根据试验结果调整。本专利可在文本短并且有效样本少的情况下,实现一种可以比较精确的提取到有用信息的文本分类方法。