一种基于语言模型的数据压缩方法
基本信息
申请号 | CN201811479097.3 | 申请日 | - |
公开(公告)号 | CN109412604A | 公开(公告)日 | 2019-03-01 |
申请公布号 | CN109412604A | 申请公布日 | 2019-03-01 |
分类号 | H03M7/40;H03M7/30 | 分类 | 基本电子电路; |
发明人 | 张文斌;刘洋 | 申请(专利权)人 | 云孚科技(北京)有限公司 |
代理机构 | 北京世誉鑫诚专利代理事务所(普通合伙) | 代理人 | 孙国栋 |
地址 | 100085 北京市海淀区上地信息路2号(北京实创高科技发展总公司2-2号D栋1-8层)一层D100-0705室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开的基于语言模型的数据压缩方法,涉及数据压缩技术领域,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。 |
