一种支持SQL查询的无损压缩查询方法

基本信息

申请号 CN202011362702.6 申请日 -
公开(公告)号 CN112506876B 公开(公告)日 2022-05-13
申请公布号 CN112506876B 申请公布日 2022-05-13
分类号 G06F16/174(2019.01)I;G06F16/2455(2019.01)I;G06F16/31(2019.01)I 分类 计算;推算;计数;
发明人 陈刚;庞志飞;鲁鹏;伍赛;姚畅;赵岑炯 申请(专利权)人 浙江大学计算机创新技术研究院
代理机构 杭州求是专利事务所有限公司 代理人 -
地址 311215浙江省杭州市萧山区宁围街道市心北路857号383室
法律状态 -

摘要

摘要 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。