一种采用多数据源采集技术用于游客画像分析的方法

基本信息

申请号 CN202010316027.7 申请日 -
公开(公告)号 CN111553153A 公开(公告)日 2020-08-18
申请公布号 CN111553153A 申请公布日 2020-08-18
分类号 G06F40/289(2020.01)I;G06F40/216(2020.01)I 分类 计算;推算;计数;
发明人 石志潮;万俊 申请(专利权)人 湖北智旅云科技有限公司
代理机构 湖北天领艾匹律师事务所 代理人 湖北智旅云科技有限公司
地址 430000湖北省武汉市东湖新技术开发区东信路光谷创业街特1幢3-1301号
法律状态 -

摘要

摘要 本发明公开了一种采用多数据源采集技术用于游客画像分析的方法,具体包括以下步骤:S1、分词:首先通过分词算法将预先采集的游客画像数据转化为词语列表,S2、特征选择:然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择,实现游客画像特征属性的提取,S3、相似度计算:最后基于相似度计算的去重算法对步骤S2提取的特征进行去重,本发明涉及数据库、数据文件、数据接口和程序技术领域。该采用多数据源采集技术用于游客画像分析的方法,本发明能够支持多数据源的游客画像数据采集,并且数据仓库使用多维数据模型建模,游客画像数据加工可精确去重,同时本发明支持多语言平台的开发应用。