融合文本分布律特征的中文文本可读性评价方法及系统

基本信息

申请号 CN202111289536.6 申请日 -
公开(公告)号 CN113934850B 公开(公告)日 2022-06-17
申请公布号 CN113934850B 申请公布日 2022-06-17
分类号 G06F16/35(2019.01)I;G06N20/00(2019.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 赵慧周;郭雯钰 申请(专利权)人 北京语言大学
代理机构 北京市广友专利事务所有限责任公司 代理人 -
地址 100083北京市海淀区学院路15号
法律状态 -

摘要

摘要 本发明公开了一种融合文本分布律特征的中文文本可读性评价方法及系统,所述方法包括:确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。