一种目标导向的短文本分类方法
基本信息
申请号 | CN202011470327.7 | 申请日 | - |
公开(公告)号 | CN113033202A | 公开(公告)日 | 2021-06-25 |
申请公布号 | CN113033202A | 申请公布日 | 2021-06-25 |
分类号 | G06F40/295(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 孙俊 | 申请(专利权)人 | 大有秦鼎(北京)科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100089北京市海淀区中关村南大街2号B座8层902A | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种目标导向的短文本分类方法,包括如下步骤:1、根据需要,对文本标注分类;2、根据需要,对文本分类标注名实体的位置和属性;3、搭建深度学习模型网络,其中,文本对应着数据输入,分类结果对应着步骤1中的分类结果,名实体识别对应着步骤2中的属性;4、设置训练时用的损失函数,这个损失函数是CRF损失函数和文本分类损失函数的加权和,通过试验调整这两个损失函数的权重,以使文本分类效果最优。本专利在训练时除了要准备文本分类的数据集,还需要对这个数据集标注名实体识别的结果。在训练过程中会设置网络的损失函数,这个函数是CRF损失函数和文本分类损失函数的加权和,权重根据试验结果调整。本专利可在文本短并且有效样本少的情况下,实现一种可以比较精确的提取到有用信息的文本分类方法。 |
