基于中文网页自动分类技术的Web用户行为分析方法

基本信息

申请号 CN201110227800.3 申请日 -
公开(公告)号 CN102402566A 公开(公告)日 2012-04-04
申请公布号 CN102402566A 申请公布日 2012-04-04
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 孙建;张梅琴;张顺颐;王攀 申请(专利权)人 广东味福记科技股份有限公司
代理机构 - 代理人 -
地址 210003 江苏省南京市建邺区奥体大街69号01幢5层
法律状态 -

摘要

摘要 本发明提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本发明的关键技术是构造了一个动态的训练集,能够根据分类准确度指标自动更新,使得训练集更加具有时效性和代表性。本方法一共分为四个模块:数据处理模块、特征提取模块、网页分类模块和用户行为分析模块。数据处理模块主要是获取用户的基本信息和用户所浏览的网页的源码,并从源码中提取出中文部分。特征提取模块主要筛选出能描述网页类别特征的特征项,最后表示成向量形式。