电商评论分类任务中数据集的建立和后续优化及扩充方案

基本信息

申请号 CN201910375040.7 申请日 -
公开(公告)号 CN110096574A 公开(公告)日 2019-08-06
申请公布号 CN110096574A 申请公布日 2019-08-06
分类号 G06F16/33;G06F16/35;G06Q30/06 分类 计算;推算;计数;
发明人 郑圆;丁丁;李平章;王航 申请(专利权)人 上海宝尊电子商务有限公司
代理机构 上海卓阳知识产权代理事务所(普通合伙) 代理人 上海宝尊电子商务有限公司
地址 200436 上海市静安区万荣路1188弄1、2、3号108室
法律状态 -

摘要

摘要 本发明涉及一种电商评论分类任务中数据集的建立和后续优化及扩充方案,其特征在于,包括如下步骤:S1.对收集到的评论进行预处理;S2.利用人工标注平台按照步骤S1制定的标注规范进行标注,生成最初的数据集;S3.将步骤S1中预处理后的大量无标签的电商评论作为语料,采用Skip‑Gram模型训练出适用于电商评论的词向量,用于后续的模型训练,和数据集的扩充和优化;S4.利用词向量对现有数据集进行扩充;S5.利用模型的实际自动标注结果,结合词向量对现有数据集进行优化;S6.重复步骤S3至步骤S5,以实现数据集的持续更新。其优点表现在:降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求。