一种语料标注方法及装置

基本信息

申请号 CN201811206272.1 申请日 -
公开(公告)号 CN109522415A 公开(公告)日 2021-06-01
申请公布号 CN109522415A 申请公布日 2021-06-01
分类号 G06F16/36;G06F17/27;G06K9/62 分类 计算;推算;计数;
发明人 林志伟;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 申请(专利权)人 厦门快商通信息技术有限公司
代理机构 厦门仕诚联合知识产权代理事务所(普通合伙) 代理人 乐珠秀
地址 361007 福建省厦门市思明区嘉禾路267号9楼902室B区
法律状态 -

摘要

摘要 本发明公开了一种语料标注方法及装置,其通过对待处理的语料进行向量化处理,得到所述语料的文本向量;根据所述语料的文本向量,利用DBSCAN聚类算法对所述语料进行聚类处理,得到长尾类语料和待标注类语料;对于所述长尾类语料,返回再次聚类处理;对于所述待标注类语料,则进行设置标签,得到标注语料;最后将所有的标注语料进行合并,得到最终标注好的语料,无需多次调整聚类数量,算法更简单,标注效率更高,可靠性更好。