MySQL中如何进行大文本存储压缩

时间：2026-01-26 14:21:10

存量数据分析

selecttable_nameas'表名',table_rowsas'记录数',truncate(data_length/1024/1024,2)as'数据容量(MB)',truncate(index_length/1024/1024,2)as'索引容量(MB)',truncate(DATA_FREE/1024/1024,2)as'碎片占用(MB)'frominformation_schema.tableswheretable_schema=${数据库名}orderbydata_lengthdesc,index_lengthdesc;

相关内容介绍

innodb引擎页数据超出16kb怎么办？

我们都知道innodb的页块默认大小为16k，如果表中一行数据长度超出了16k，就会出现行溢出，溢出的行是存放在另外的地方（uncompress blob page）。由于innodb采用聚簇索引把数据进行存放起来，即B+Tree结构，因此每个页块中至少有两行数据，否则就失去了B+Tree的意义，这样就得出一行数据最大的长度限制为8k（大字段在数据页会存储768个字节数据，剩余的数据溢出到另外的页中，数据页还有20个字节记录溢出页的地址）

对 dynamic 格式来说，如果大对象字段（text/blob）存储数据大小小于 40 字节，那全部放在数据页，剩余的场景，数据页只保留一个 20 字节的指针指向溢出页。这种场景下，如果每个大对象字段保存的数据小于 40 个字节，也就和 varchar(40)，效果一样。

innodb-row-format-dynamic：dev.mysql.com/doc/refman/…

Linux 稀疏文件 & 空洞

稀疏文件（Sparse File）：稀疏文件与其他普通文件基本相同，区别在于文件中的部分数据全为0，且这部分数据不占用磁盘空间

文件空洞：文件位移量可以大于文件的实际长度（位于文件中但未被写过的字节被设为0），空洞是否占用磁盘空间由操作系统决定

文件空洞部分不占用磁盘空间、文件所占用的磁盘空间仍然是连续的

innodb提供的压缩方案

页面压缩
适用场景：由于数据量太大，磁盘空间不足，负载主要体现在IO上，而服务器的CPU又有比较多的余量的场景。

1）COMPRESS页压缩

相关文档：dev.mysql.com/doc/refman/…

在MySQL5.7版本之前就提供的页压缩功能，在创建表时指定 ROW_FORMAT = COMPRESS，并通过 KEY_BLOCK_SIZE 设置压缩页的大小

存在设计上的缺陷，有可能会导致性能下降明显，然后其设计初衷是为了提升性能，引入了“日志即数据”的理念

对于压缩页的数据修改，并不会直接修改页本身，而是将修改日志存储在这个页中，这确实对数据的变更比较友好，不用每次修改都进行压缩/解压

对于数据的读取，压缩的数据是无法直接读取的，所以这种算法会在内存中保留一个解压后的16K的页，以供数据的读取

这就导致了一个页在缓冲池中可能会有两个版本（压缩版和非压缩版），引发一个非常严重的问题，即缓冲池中能缓存的页的数量大大的减少了，从而可能会导致数据库的性能极大的下降

2）TPC（透明页压缩）

工作原理：写入页面时，使用指定的压缩算法对页面进行压缩，压缩后写入磁盘，其中通过打孔机制从页面末尾释放空（需要操作系统支持空洞特性）

ALTER TABLE xxx COMPRESSION = ZLIB 可以启用TPC页压缩功能，但这只是对后续增量数据进行压缩，如果期望对整个表进行压缩，则需要执行 OPTIMIZE TABLE xxx

实现过程：一个压缩页在缓冲池中都是一个16K的非压缩页，只有在数据刷盘的时候，会进行一次压缩，压缩后剩余的空间会用 0x00 填满，利用文件系统的空洞特性（hole punch）对文件进行裁剪，释放 0x00 占用的稀疏空间

TPC虽好，但它依赖操作系统的 Hole Punch 特性，且裁剪后的文件大小需要和文件系统块大小对齐（4K）。即假如压缩后的页大小是9K，那么实际占用的空间是12K

列压缩

MySQL目前没有直接针对列压缩的方案，有一个曲线救国的方法，就是在业务层使用MySQL提供的压缩和解压函数来针对列进行压缩和解压操作。也就是如果需要对某一列做压缩，在写入时调用COMPRESS函数对那个列的内容进行压缩，读取的时候，使用UNCOMPRESS函数对压缩过的数据进行解压。

使用场景：针对表中某些列数据长度比较大的情况，一般是 varchar、text、blob、json等数据类型

简单测试

innodb透明页压缩（TPC）

测试数据

1）创建表

create table table_origin ( ...... ) comment '测试原表';

create table table_compression_zlib ( ...... ) comment '测试压缩表_zlib' compression = 'zlib';

create table table_compression_lz4 ( ...... ) comment '测试压缩表_lz4' compression = 'lz4';

2）往表中写入10w行测试数据

压缩率

SELECTNAME,FS_BLOCK_SIZE,FILE_SIZE,ALLOCATED_SIZEFROMinformation_schema.INNODB_TABLESPACESWHERENAMElike'test_compress%';

FS_BLOCK_SIZE：文件系统块大小，也就是打孔使用的单位大小

FILE_SIZE：文件的表观大小，表示文件的最大大小，未压缩

ALLOCATED_SIZE：文件的实际大小，即磁盘上分配的空间量

压缩率：

zlib：1320636416/3489660928 = 37.8%

lz4：1566949376/3489660928 = 45%

耗时
循环插入10w条记录
原表：918275 ms
zlib：878540 ms
lz4：875259 ms
循环查询10w条记录
原表：332519 ms
zlib：373387 ms
lz4：343501 ms

上一篇：MySQL中的数据存储结构是什么
下一篇：linux停止mysql服务命令有哪些
mysql

MySQL中如何进行大文本存储压缩

相关内容介绍

innodb提供的压缩方案

页面压缩
适用场景：由于数据量太大，磁盘空间不足，负载主要体现在IO上，而服务器的CPU又有比较多的余量的场景。

简单测试

innodb透明页压缩（TPC）

测试数据

2）往表中写入10w行测试数据

耗时
循环插入10w条记录
原表：918275 ms
zlib：878540 ms
lz4：875259 ms
循环查询10w条记录
原表：332519 ms
zlib：373387 ms
lz4：343501 ms

上一篇：MySQL中的数据存储结构是什么
下一篇：linux停止mysql服务命令有哪些
mysql

相关知识

热门推荐

相关推荐

MySQL中如何进行大文本存储压缩

相关内容介绍

innodb提供的压缩方案

页面压缩适用场景：由于数据量太大，磁盘空间不足，负载主要体现在IO上，而服务器的CPU又有比较多的余量的场景。

简单测试

innodb透明页压缩（TPC）

测试数据

2）往表中写入10w行测试数据

耗时循环插入10w条记录原表：918275 mszlib：878540 mslz4：875259 ms循环查询10w条记录原表：332519 mszlib：373387 mslz4：343501 ms上一篇：MySQL中的数据存储结构是什么下一篇：linux停止mysql服务命令有哪些 mysql

相关知识

热门推荐

相关推荐

页面压缩
适用场景：由于数据量太大，磁盘空间不足，负载主要体现在IO上，而服务器的CPU又有比较多的余量的场景。

耗时
循环插入10w条记录
原表：918275 ms
zlib：878540 ms
lz4：875259 ms
循环查询10w条记录
原表：332519 ms
zlib：373387 ms
lz4：343501 ms

上一篇：MySQL中的数据存储结构是什么
下一篇：linux停止mysql服务命令有哪些
mysql