Zip-菲利普·卡兹发明的压缩格式

ZIP,是一个文件的压缩的算法,原名Deflate(真空),发明者为菲利普·卡兹(Phil Katz),他于1989年1月公布了该格式的资料。ZIP通常使用后缀名“.zip”,它的MIME格式为 application/zip。目前,ZIP格式属于几种主流的压缩格式之一,其竞争者包括RAR格式以及开放源码的7-Zip格式。从性能上比较,RAR格式较ZIP格式压缩率较高,但是它的压缩时间远远高于Zip。而7-Zip-7z由于提供了免费的压缩工具而逐渐在更多的领域得到应用。

创始

2000年4月14日,在美国威斯康星州密尔沃基的一家汽车旅馆里,人们发现了一具年轻人的尸体,检查得知这个人的死因是酗酒、饮酒过量导致的死亡。死者被发现的时候,手中还握着一个空酒瓶,房间中还有五个空酒瓶。这样一个酒徒的死也许在平时只是地方小报上的一条不起眼的新闻,但这个人的死却在互联网上掀起了轩然大波。无数人在网上发表评论与文章,纪念他的离开,寄托人们的哀思,因为他不是一个普通人,他叫菲利普·卡兹(Philip Katz),几乎全世界的每一台个人电脑上都有用他创造的压缩算法生成的文档,这种文档的后缀是“.zip”,这些文档的的开头都嵌有他姓名的字头缩写字母‘PK’。这位在全世界的电脑中留下痕迹的天才程序员终年仅37岁。

在DOS时代就开始使用电脑的玩家可能都会记得,那时候的处理器速度与存储介质的容量与现在相比简直不可同日而语,为了拷贝一个游戏我们常常要更换数张软盘。从那个时候起,我们认识了ZIP文件,在没有Windows的年代,使用字符界面和命令行方式压缩的程序主要有PKZIP和ARJ两种,直到过渡到Windows时代,WinZip的出现才使压缩软件的规格得到了统一。互联网上无数的文件都以“.zip”的格式进行存储,压缩文件使用户能在最短的时间里将文件从网上下载回自己的硬盘中,在没有宽带,连MODEM都仅仅是14.4K的速率的那个年代,ZIP文件为我们节省了大量的宝贵时间与金钱。但很少有人知道ZIP文件的由来,很少知道它的创造者菲利普·卡兹。

在互联网刚萌芽之时,也就是公元1988年,那时候互联网还刚刚开始有了雏形,而最流行的是一种使用电话线拨号登陆别人在家里搭建的服务平台——交换信息的电子公告牌(BBS)系统。这种系统有些类似现在的论坛和新闻组,由于站长之间互相转信也成为了一个庞大的信息网络(惠多网)。老一点的玩家可能都有印象,在没有Internet的年代,中国大地上也曾有几十个这样的BBS存在,著名的字处理软件WPS的作者求伯君和CCED的作者朱崇君当年都是非常有名的个人站长。这种方式不但可以传递文本信息,也可以由用户上传文件到站点的计算机以供其他用户下载。由于电话线的接入速度慢的可怜,通过BBS传输较大文件实在是叫人痛苦的一件事。于是,使用文件压缩技术减小文件的体积并将多个文件压缩到一个封包中就成为了BBS用户的一项必须掌握的技巧。当时的美国BBS上,比较流行的是一种叫做ARC的压缩技术,由一家名为SEA(System Enhancement Associates,系统增强伙伴)的小公司开发,运行在MS-DOS平台下,使用这种软件进行工作是需要付费的。那时候的菲利普·卡兹是一个沉迷于BBS上的毛头小伙,由于经常混迹于BBS上,对于ARC的收费非常不满的他自己开发了一个程序叫PKARC,这个程序于ARC完全兼容,可以压缩和解压缩ARC文件。这样一来,大批的ARC用户自然转而使用菲利普·卡兹的免费软件。ARC的制作公司一怒之下将菲利普·卡兹告上了法庭,法庭自然判决菲利普·卡兹禁止继续开发和传播PKARC。这种判决并没有磨灭菲利普·卡兹的斗志,而是激起了他要与ARC斗争到底的决心。在虚拟的世界中,自由、平等永远是真正的程序员永久的追求。他放弃了PKARC的开发,发誓要写出一款比ARC更好的压缩软件来打败ARC。这一场官司造就了一名编程天才的横空出世,也造就了一个后来在互联网时代的文件标准。几周以后,后来统治整个BBS世界乃至Internet世界的ZIP在菲利普·卡兹手中发出了第一声响亮的啼哭!

不鸣则已,一鸣惊人,这种名为PKZIP的程序可以将一个或多个文件压缩到一个后缀为“.zip”的文件中,无论从压缩比、压缩速度方面都超过了商业软件ARC。卡兹将PKZIP作为自由软件免费发放,使其如同草原上的星星之火般在全美的各大BBS上蔓延开来,用户以几何级数的增长,各大BBS的站长自发将原来使用ARC格式压缩的文件转换成ZIP格式,卡兹用他天才的头脑和顽强的毅力堂堂正正的击败了ARC,ARC的制作公司在PKZIP的强大攻势下很快就销声匿迹了。用自由软件打败商业公司的传奇故事很快传遍了整个BBS世界,疾恶如仇而又身手不凡的菲利普·卡兹如同数字世界的大侠般仗剑江湖,劫富济贫,以一人之力擎起了压缩软件的大旗。这段被人们津津乐道的传奇故事使菲利普·卡兹成为了很多热衷于编程的年轻人心中的偶像。此后卡兹一直继续着对PKZIP的开发和维护工作,PKZIP建立和统治了DOS时代的压缩标准。直到Windows的诞生,使用卡兹创造的压缩算法的软件Winzip的出现更使ZIP格式成为Internet的传输标准,ZIP压缩格式也成为压缩文档的事实标准。试问当今的电脑用户,谁敢说自己的电脑中没有ZIP文件?

可惜,这位天才程序员却从未在ZIP身上得到半点好处,坚持信念的结果往往是潦倒的生活,糟糕的个人生活和长期编写软件的巨大压力使卡兹染上了酗酒的恶习,最终断送了他那年轻的生命。他为世界贡献了一个伟大的免费软件,更为重要的是他缔造了一种大众化的压缩格式,然而却过早地离开了这个世界。他的名字也许多年后会被人们忘怀,但他创造的ZIP将在网上生生不息的流传,他的名字缩写嵌在了全世界数以千万的电脑中,他的传奇故事将永远流传……

历史沿革

前身

1985年一家名为SEA(System Enhancement Associates,系统增强伙伴)的小公司开发了一个在MS-DOS平台下的商业压缩软件,名为ARC。当时的软件发行方式略有不同,用户购买了软件,除了得到软件的可执行文件还包括一份C语言的源代码。当时的卡茨与很多用计算机的平民一样,缺乏资金购买大量的商业软件,当时卡茨从网上下载了一份ARC的C语言源代码,并用汇编语言将其全新编写并编译出来。卡茨将这个软件命名为:PKARC(Phillip Katz’ ARC)。卡茨制作的新软件PKARC因为是参照源代码编写的,所以完全兼容ARC并且性能上比ARC高。卡茨当时将这个新软件上传到网络上面。显然,卡茨此举造成对SEA公司的侵权。SEA最初希望通过联络卡茨使PKARC成为SEA公司旗下的一款产品,后来卡茨拒绝了。最终,双方对簿公堂,结果是卡茨败诉,卡茨被判以对SEA公司的赔款以及停止发放PKARC。后来,卡茨在研发过程中的PKARC续作也被迫重新改写所有代码,PKARC其实就是下文提及的PKZIP的前身,但Phil Katz没有从PKARC赚到一分钱,还是穷困潦倒,又因为酗酒等众多原因,2000年死在一个汽车旅馆中  。

诞生

这场官司过后几周,卡茨就制作出新压缩软件PKZIP(Phillip Katz’ ZIP),这款全新的软体比ARC的压缩率、压缩性能都要高许多,并且包含更多功能。此后,卡茨还将ZIP的所有技术参数公诸于众。ZIP(含义“速度”)这一名称是由卡茨的朋友罗伯特·马宏利(Robert Mahoney)建议的。他们想暗示,他们的产品比ARC在一定时间内更快速。这个名字往往被写成大写字母,因为在DOS系统内,通常都是使用大写字母作为后缀名的。(由于MS-DOS运行在FAT文件系统上)

Winzip面世

Windows 3.0面世之前,有两种格式与ZIP同样流行,一个是LHA(LHArc),另一个是ARJ(Archiver Robert Jung),直至到1995年,这3种压缩格式都是PC应用的主流。之后,1995年,微软发布了Windows95,当时从DOS转移到Windows的用户们,极度渴求对图形界面下的优良软件,Winzip以其优良的性能以及不太羞涩的图形用户界面吸引了用户的目光,在当时占有大量的市场占有量,其实,当时的Winzip仅仅是一个调用DOS资源的GUI外壳,但是其从Windows3就开始的制作经验使其GUI性能和外观都比当时的流行软件要好。很快的,Winzip就成为了当时一个很流行的软件。同时也带动了ZIP的传播,由于在前期太受欢迎,使到后期很多用户都以为,是WinZip创造了ZIP,其实这是一个误解。

发展

因格式开放且免费。越来越多的软件内嵌支持解压Zip文件。这时,Zip文件越来越像一个经过压缩的透明文件夹。

•自Windows Me以来,Windows内嵌支持打开以及压缩Zip文件。

•一些下载软件的工具,支持部分下载Zip文件然后进行恢复。

•越来越多的软件内嵌支持打开Zip文件。

•几乎所有的压缩软件都支持打开及制作Zip文件。

技术

原理

ZIP是一种相当简单的分别压缩每个文件的存档格式。分别压缩文件允许不必读取另外的数据而检索独立的文件;理论上,这种格式允许对不同的文件使用不同的算法。不管用何种方法,对这种格式的一个告诫是对于包含很多小文件的时候,存档会明显的比压缩成一个独立的文件(在类Unix系统中一个经典的例子是普通的tar.gz存档是由一个使用gzip压缩的TAR存档组成)要大。

ZIP的规约指出文件可以不经压缩或者使用不同的压缩算法来存储。然而,在实际上,ZIP几乎差不多总是在使用卡茨(Katz)的DEFLATE算法。

ZIP支持基于对称加密系统的一个简单的密码,现在已知有严重的缺陷,已知明文攻击,字典攻击和暴力攻击。ZIP也支持分卷压缩。

在近来一段时间,ZIP加入了包括新的压缩和加密方法的新特征,不过这些新特征并没有被许多工具所支持并且没有得到广泛应用。

压缩方法

用来对比压缩大小使用的是的内容和最大压缩比。

Shrinking(方法1)

收缩(Shrinking)是LZW的微小调整的一个异体,同样也受到LZW专利问题的影响。从来没有明确的是这项专利是否涵盖反收缩,不过一些开放源码的项目(例如Info-ZIP)决定谨慎行事,在默认的构造里不包含反收缩的支持。

Reducing(方法2-5)

缩小(Reducing)包括压缩重复字节序列的组合,然后应用一个基于概率的编码得到结果。

Imploding(方法6)

爆聚(Imploding)包括使用一个滑动窗口压缩重复字节序列,然后使用多重Shannon-Fano树压缩得到结果。

Tokenizing(方法7)

令牌化(Tokenizing)的方法数是保留的。PKWARE规约没有为其定义一个算法。

Deflate和增强的Deflate(方法8和9)

这些方法使用众所周知的Deflate算法。Deflate允许最大32K的窗口。增强的Deflate允许最大64K的窗口。增强版完成任务稍稍成功一些,但是并没有被广泛的支持。

Deflate比较尺寸是52.1MiB(使用pkzip for Windows,版本8.00.0038测试)

增强的Deflate比较尺寸是52.8MiB(使用pkzip for Windows,版本8.00.0038测试)

PKWARE Data Compression Library Imploding(方法10)

PKWARE数据压缩库爆聚(PKWARE Data Compression Library Imploding),官方ZIP格式规约就此没有给出更多的信息。

比较尺寸是61.6MiB(使用pkzip for Windows,版本8.00.0038测试,选择二进制模式)

方法11

此方法被PKWARE保留。

Bzip2(方法12)

此方法使用众所周知的bzip2算法。此算法比deflate高效但是并没有被(基于Windows平台的)工具所支持。

比较尺寸是50.6MiB(使用pkzip for Windows,版本8.00.0038测试)

缺点

由于出现于市场的时间早,今日Zip档案与其他压缩格式相比有众多无法忽视的缺点。

原生并不支持Unicode文件名称,容易导致一部分的资源共享困难,在东亚文化圈的资源交流尤其显著;无法与7z相比的压缩比率以及如WinRAR的Recovery Record修复支援功能的缺乏亦都是其衰微的原因。

支持软件

winrar,360压缩等

危机

基本上,Zip文件的发展都是由PKware公司与Winzip所推动。然而,其两家公司就某些问题上互相猜疑,导致发展缓慢。人们当前最想在Zip文件实现的目标,就是加强当前Zip文件的加密能力。就当前而言,Zip的文件加密能力弱得可怜,仅凭单单一个口令保护,根本满足不了安全需求。虽然卡茨在世时公开了格式,但是当时制作的时候留有为日后升级的空间。而Winzip仅仅是一个用户,根本无法发布新标准,其标准的制订权依然保留在PKware手中。2002年时,PKware开发了支持256位AES加密的PKZIP 5.0,但是Winzip在2003年发布的Winzip 9却被证明了无法与之兼容。双方都互相指责对方违背了Zip的自由开放精神。这是Zip自诞生日起,第一个对于它来说最严峻的挑战。

赞(0)
免责声明:本文部分文字与图片资源来自于网络,用户转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即在本文留言评论通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意。