一种基于聚类算法的无监督学习多点匹配方法

基本信息

申请号 CN202010470688.5 申请日 -
公开(公告)号 CN111737460A 公开(公告)日 2020-10-02
申请公布号 CN111737460A 申请公布日 2020-10-02
分类号 G06F16/35(2019.01)I 分类 -
发明人 陈明东;黄越 申请(专利权)人 思派健康产业投资有限公司
代理机构 北京市盛峰律师事务所 代理人 思派健康产业投资有限公司
地址 510700广东省广州市黄埔区中新广州知识产权腾飞一街2号619房
法律状态 -

摘要

摘要 本发明公开了一种基于聚类算法的无监督学习多点匹配方法,包括S1、对短文本库进行预处理,以获取映射关系为短文本‑短文本的分词‑分词所包含的字的第一类映射链条,并根据第一类映射链条获取映射关系为字‑分词‑短文本的第二类映射链条;S2、输入待匹配文本,将待匹配文本打散为单个字,利用第二类映射链条将单个字映射到分词中,并将分词映射到短文本中,根据各个字在待匹配文本中的位置,矢量描述每一个短文本对待匹配文本的引用关系,以获取短文本库的引用矩阵等步骤。优点是:通过并行的多点匹配,使得算法可以一次性地将可能匹配到的短文本提取出来,提高了匹配效率,避免了对一个待匹配文本的循环匹配。