文本内容质量评估方法及系统
基本信息
申请号 | CN202110422185.5 | 申请日 | - |
公开(公告)号 | CN112989816B | 公开(公告)日 | 2021-10-01 |
申请公布号 | CN112989816B | 申请公布日 | 2021-10-01 |
分类号 | G06F40/284(2020.01)I;G06F40/44(2020.01)I;G06K9/62(2006.01)I;G06Q10/06(2012.01)I | 分类 | 计算;推算;计数; |
发明人 | 张力文 | 申请(专利权)人 | 中译语通科技股份有限公司 |
代理机构 | 北京兴智翔达知识产权代理有限公司 | 代理人 | 郭卫芹 |
地址 | 100131北京市石景山区石景山路20号中铁建设大厦16层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种文本内容质量评估方法及系统,通过词性标签的N‑gram构建特征工程并建立分类模型的构思来有效识别文本中的无效信息,并为整体的文本内容打分,本发明可以应用于智能数据挖掘系统中,作为预处理的一部分,去除无价值信息,最大限度地保留文本正文中有价值的信息,得到有价值的文本并服务于下游任务,还可以有效节省系统存储资源,提升用户阅读质量。 |
