2013年,德国一家建筑公司的工人注意到他们的施乐复印机有一些奇怪的地方:当他们复印一张房子平面图时,复印件与原件之间存在微妙而显著的差异。在最初的平面图中,每栋房子的三个房间都有一个矩形来标注其面积:房间分别为14.13平方米,21.11平方米和17.42平方米。然而,在复印件中,所有三个房间都被标记为14.13平方米。该公司联系了计算机科学家大卫·克里塞尔(David Kriesel),让他对这一看似不可思议的结果进行调查。施乐复印机以数字方式扫描文档,然后打印生成的图像文件。结合这一事实,为了节省空间,几乎每个数字图像文件都经过了压缩。谜底开始浮出水面。
压缩文件需要两个步骤:首先是编码,在此期间文件被转换为更紧凑的格式;然后是解码,将编码的过程反向进行。如果恢复的文件与原始文件相同,则压缩过程被描述为无损,即没有丢失信息。相比之下,如果恢复的文件只是原始文件的近似值,则压缩被描述为有损,即一些信息已丢失而无法恢复。无损压缩通常用于文本文件和计算机程序,因为在这些领域中,即使是一个错误的字符也有可能造成灾难性的后果。在绝对精度不重要的情况下,有损压缩通常用于照片、音频和视频。大多数时候,我们不会注意到一张图片、一首歌或电影是否被完美地复制。只有当文件被压缩得非常紧时,保真度的损失才会更加明显。在这些情况下,我们会注意到所谓的压缩伪影——最小的JPEG和MPEG图像的模糊,或者低比特率MP3的微弱声音。
施乐复印机使用一种被称为jbig2的有损压缩格式,专为黑白图像而设计。为了节省空间,复印机会识别图像中看起来相似的区域,并为所有这些区域存储一份副本;当文件被解压时,它会重复使用该副本来重建映像。结果是,复印机判断出指定房间面积的标签非常相似,所以它只需要存储其中一个,即14.13平方米的房间,并且在打印楼层平面图时,它对所有三个房间都重复使用这一个标签。
美籍华裔科幻作家特德·姜(Ted Chiang)在《纽约客》上发表文章,把ChatGPT看作是万维网上所有文本的模糊JPEG。
Google等搜索引擎事实上就是一个压缩器,把海量的网页信息压缩成一个搜索列表,给出链接和一些匹配的网页,用户自行去网页里查看。
ChatGPT是一个更进一步的压缩器,直接把互联网海量的信息压缩,以可视化格式呈现出来,你甚至不用去打开网页链接,比Google还高效。
这开启了一个新的互联网时代。Chatgoo为这个时代而生。探索AI时代的一切可能。
Tag: 个人博客 ChatGPT 备案站