基于文本挖掘的互联网媒体用户属性分析方法
基本信息
申请号 | CN201510444180.7 | 申请日 | - |
公开(公告)号 | CN104991968A | 公开(公告)日 | 2015-10-21 |
申请公布号 | CN104991968A | 申请公布日 | 2015-10-21 |
分类号 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王飞;张国鸿;张何君 | 申请(专利权)人 | 成都云堆移动信息技术有限公司 |
代理机构 | 北京天奇智新知识产权代理有限公司 | 代理人 | 郭霞 |
地址 | 610041 四川省成都市高新区府城大道西段399号5栋1单元12层1-3号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于文本挖掘的互联网媒体用户属性分析方法,包括如下步骤:(1)文本挖掘:1.1:创建标签主语料库;1.2:创建特征语料库;1.3:语料库更新维护;(2)获取互联媒体网用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本并清洗;2.2:对样本进行处理,得出噪音值;2.3:将噪音值与阈值a作比较,噪音值小于阈值a,则进行模型分类形成互联网媒体用户属性集合。通过本发明不仅能分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,而且还可以分析互联网媒体用户的基本属性,能对互联网媒体用户的全方位属性提供支持,不仅具有广泛的商业应用价值,也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。 |
