一种基于语言模型的数据压缩方法

基本信息

申请号 CN201811479097.3 申请日 -
公开(公告)号 CN109412604A 公开(公告)日 2019-03-01
申请公布号 CN109412604A 申请公布日 2019-03-01
分类号 H03M7/40;H03M7/30 分类 基本电子电路;
发明人 张文斌;刘洋 申请(专利权)人 云孚科技(北京)有限公司
代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 代理人 孙国栋
地址 100085 北京市海淀区上地信息路2号(北京实创高科技发展总公司2-2号D栋1-8层)一层D100-0705室
法律状态 -

摘要

摘要 本发明公开的基于语言模型的数据压缩方法,涉及数据压缩技术领域,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。