文本内容质量评估方法及系统

基本信息

申请号 CN202110422185.5 申请日 -
公开(公告)号 CN112989816B 公开(公告)日 2021-10-01
申请公布号 CN112989816B 申请公布日 2021-10-01
分类号 G06F40/284(2020.01)I;G06F40/44(2020.01)I;G06K9/62(2006.01)I;G06Q10/06(2012.01)I 分类 计算;推算;计数;
发明人 张力文 申请(专利权)人 中译语通科技股份有限公司
代理机构 北京兴智翔达知识产权代理有限公司 代理人 郭卫芹
地址 100131北京市石景山区石景山路20号中铁建设大厦16层
法律状态 -

摘要

摘要 本发明公开了一种文本内容质量评估方法及系统,通过词性标签的N‑gram构建特征工程并建立分类模型的构思来有效识别文本中的无效信息,并为整体的文本内容打分,本发明可以应用于智能数据挖掘系统中,作为预处理的一部分,去除无价值信息,最大限度地保留文本正文中有价值的信息,得到有价值的文本并服务于下游任务,还可以有效节省系统存储资源,提升用户阅读质量。