一种网站识别方法及可读存储介质

基本信息

申请号 CN201910733928.3 申请日 -
公开(公告)号 CN110825998A 公开(公告)日 2020-02-21
申请公布号 CN110825998A 申请公布日 2020-02-21
分类号 G06F16/958;G06F16/35;G06K9/62 分类 计算;推算;计数;
发明人 佟玲玲;李扬曦;胡燕林;井雅琪;任博雅;时磊;韩鹏;柳新民;佟美莹 申请(专利权)人 哈尔滨工业大学软件工程股份有限公司
代理机构 工业和信息化部电子专利中心 代理人 国家计算机网络与信息安全管理中心;哈尔滨工业大学软件工程股份有限公司
地址 100029 北京市朝阳区裕民路甲3号
法律状态 -

摘要

摘要 本发明公开了一种网站识别方法及可读存储介质,该方法包括如下步骤:提取网站样本数据,并对所述网站样本数据进行处理构建网页文本卷积神经网络CNN特征;提取网页特征,根据所述网页特征和所述网页文本CNN特征进行特征融合获得网站融合特征;根据所述网站融合特征进行模型训练获得识别模型,根据所述识别模型对待识别的网站进行识别。本发明方法通过使用网页文本特征构建的分类模型比较构建多特征融合分类模型,分类精度有大幅度提高。