一种基于机器学习的突发事件敏感词检测方法专利查询专利号|摘要-满商公司网

首页/ 辽宁工程技术大学/ 专利详情

一种基于机器学习的突发事件敏感词检测方法

基本信息

摘要

摘要	本发明公开了一种基于机器学习的突发事件敏感词检测方法，包括确定突发事件相关的违规主题词及语句；建立敏感词库与背景词库；利用确定的正样本、强负样本及敏感词库、背景词库训练决策树或贝叶斯分类模型，对敏感词和背景词设定不同权重值；获得待审核文本后，首先将文本去除停用词并分段，后使用TF‑IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分；通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本。本发明提出了解决突发事件的敏感词库建立的有效方法，可以更高效、更精准的建立敏感词库、背景词库，并将建立过程自动化，省去大量人工建库的成本。