一种基于albert预训练模型和kmean算法的评论标签提取的方法
基本信息
申请号 | CN202011243154.5 | 申请日 | - |
公开(公告)号 | CN112215003A | 公开(公告)日 | 2021-01-12 |
申请公布号 | CN112215003A | 申请公布日 | 2021-01-12 |
分类号 | G06F40/289(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 廖杰;邓方华;张衍彬 | 申请(专利权)人 | 深圳市洪堡智慧餐饮科技有限公司 |
代理机构 | 深圳市深联知识产权代理事务所(普通合伙) | 代理人 | 张琪 |
地址 | 518000广东省深圳市福田区梅林街道孖岭社区凯丰路10号翠林大厦8层808A | ||
法律状态 | - |
摘要
摘要 | 本发明涉及自然语言处理技术领域,具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:步骤一、爬取门店的评论数据,数据导入到数据库中;步骤二、对数据库的数据进行数据清洗;步骤三、利用albert预训练模型获得词向量;步骤四、评估模型的平均准确率,本发明利用albert作为预训练模型,模型小,训练速度快,对于大规模数据情况下,效果更好,本发明利用kmean算法作为无监督的聚类算法,通过获取albert的最后一层词向量作为输入,并最终通过kmean聚类算法聚类,达到更为准确的预估准确率。 |
