数据表设计时存储文章内容的字段使用的是text类型,这个类型最大只能存储65535个字节,遇到这个问题时最先想到的就是更改数据库的字段类型为mediumtext或者longtext。
+ N+ M2 M( x) I% o2 Q* N/ i) Z0 X虽然更改字段类型可以解决问题,但是突然想到还可以使用压缩的方式来解决这个问题。我们可以将文章内容使用压缩函数进行压缩后再存储。比如文章内容10万个字符,压缩后可能就只有5万个字符甚至更少。
+ T W6 B( o8 r% [在实际运用之前我们来看看PHP相关的压缩函数吧
- T+ W7 j t( G/ e2 t9 ?PHP中又三个压缩函数,分别为gzcompress、gzdeflate及gzencode。对应的解压缩函数为gzuncompress、gzinflate及gzdecode
$ K$ g/ N1 T% r9 v<?php
$test = 'cdasbgfedty4r263gv43t5t632tgrewygrewhrt4wntgrdmnhtejrbgsdsfbgfsbfgsngfsjmhbdzgdrehwfdbnxnv cnbfddbfdbfdfdshgbfb cv54';
echo '原字符串:<br/>';
var_dump($test);
echo '<br/><br/>';
echo 'gzcompress压缩后:<br/>';
$gzcompress = gzcompress($test);
var_dump($gzcompress);
echo '<br/><br/>';
echo 'gzdeflate压缩后:<br/>';
$gzdeflate = gzdeflate($test);
var_dump($gzdeflate);
echo '<br/>';
echo 'gzencode压缩后:<br/>';
$gzencode = gzencode($test);
var_dump($gzencode);
echo '<br/><br/>';
echo 'gzcompress解压后:<br/>';
var_dump(gzuncompress($gzcompress));
echo '<br/><br/>';
echo 'gzdeflate解压后:<br/>';
var_dump(gzinflate($gzdeflate));
echo '<br/><br/>';
echo 'gzencode解压后:<br/>';
var_dump(gzdecode($gzencode)); 结果如下所示:! c+ f" Z* }* c; h9 D6 C1 ]9 ^" ?
( S; @& P: t$ i, e: P似乎压缩效果不是很好,但是我们把测试数据换成数字类型,压缩效果就很明显了。具体具体如下所示:
. C$ u: v& N& D G! E! T
8 ^) {# h- ~2 M# U" ]从上面的压缩效果来看,不论原字符串是什么类型的数据,gzdeflate的压缩效果最好,gzencode压缩效果最差。
: G/ ~7 }7 I) V6 F为什么会造成这么大的差距呢?要明白其原因首先就要明白其工作的原理9 { `9 I1 k# }& }$ U
压缩原理:9 O9 \% J' o0 m. A) j
压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"AB"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的。8 P6 {7 Z# k5 n! H" G
由于计算机处理的信息是以二进制数的形式表示的,因此压缩就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的( B0 l5 B! Q' W( V0 e
总结:1 p6 D3 D' M; ^( X- {7 E
数字字符串相同的字符很多毕竟数字只有0~9这十个,而非数字类的字符串就很多了,因此数字字符串压缩效果更好。
- I$ e: S9 ^5 X I0 x) }' Z那么我们的文章能不能使用压缩呢,压缩效果好不好呢?实际实验了一下,压缩效果还可以。思考了一下原因,文章使用的是富文本编辑的,而富文本又有很多html标签,这些html标签大部分都是相同的,压缩后体积自然就变小了。1 A7 C7 o6 R* \4 l: Z
压缩效果:gzdeflate > gzcompress > gzencode
1 V7 w. [2 j) H( R' |4 J使用数据库存储压缩数据时,可能会报如下错误:
( L4 E2 I3 x# O6 U2 RMalformed UTF-8 characters, possibly incorrectly encoded 主要原因是:压缩后会有特殊字符,这些字符可能是GBK、GB2312、BIG5等编码格式,而数据库及字段使用的是utf8编码。我们可以先将压缩后的数据使用base64_encode进行转换后再存储到数据库,获取数据时使用base64_decode转换回来再进行解压缩。( ]1 Y# \3 j8 L/ W: k
特意实验了一下,一篇12021个字符串的文章使用gzdeflate压缩后只有2685个字符,再使用base64加密后字符长度为3580。虽然base64加密后内容变大了,但是相对原字符,压缩效果依然很乐观。 |