一种语料标注方法及装置
基本信息
申请号 | CN201811206272.1 | 申请日 | - |
公开(公告)号 | CN109522415B | 公开(公告)日 | 2021-06-01 |
申请公布号 | CN109522415B | 申请公布日 | 2021-06-01 |
分类号 | G06F16/36(2019.01)I;G06K9/62(2006.01)I;G06F40/295(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 林志伟;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人 | 厦门快商通信息技术有限公司 |
代理机构 | 厦门仕诚联合知识产权代理事务所(普通合伙) | 代理人 | 乐珠秀 |
地址 | 361007福建省厦门市思明区嘉禾路267号9楼902室B区 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种语料标注方法及装置,其通过对待处理的语料进行向量化处理,得到所述语料的文本向量;根据所述语料的文本向量,利用DBSCAN聚类算法对所述语料进行聚类处理,得到长尾类语料和待标注类语料;对于所述长尾类语料,返回再次聚类处理;对于所述待标注类语料,则进行设置标签,得到标注语料;最后将所有的标注语料进行合并,得到最终标注好的语料,无需多次调整聚类数量,算法更简单,标注效率更高,可靠性更好。 |
