新闻分类方法、计算机可读存储介质

基本信息

申请号 CN202010880325.9 申请日 -
公开(公告)号 CN112131384A 公开(公告)日 2020-12-25
申请公布号 CN112131384A 申请公布日 2020-12-25
分类号 G06F16/35;G06N3/02;G06N3/08 分类 计算;推算;计数;
发明人 章恒靖;刘琦;邱枫;乔正宇;郑维;徐鹏;朱得元;刘恒昌 申请(专利权)人 科航(苏州)信息科技有限公司
代理机构 北京中誉威圣知识产权代理有限公司 代理人 科航(苏州)信息科技有限公司
地址 215000 江苏省苏州市工业园区金鸡湖大道88号人工智能产业园G2-1501
法律状态 -

摘要

摘要 本发明公开了一种新闻分类方法以及计算机可读存储介质,其包括:获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;确定各个所述新闻类别下的新闻文本的总体数量;当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。该新闻分类方法以及计算机可读存储介质能够提高分类的准确度。