当前位置:主页 > 行业 > 正文

三个印度人改变压缩算法,一意孤行整个暑假,却因“太简单”申不到经费

来源:网络 阅读量:11592 时间:2022-07-11 10:41:00
三个印度人改变压缩算法,一意孤行整个暑假,却因“太简单”申不到经费

如果有损,压缩后的图像质量会下降。

所以在数字时代的几十年里,出现了很多相关的技术,比如JPEG,H.26X

但你可能不知道,这些技术可以追溯到47年前。

三名不知名的印度工程师“各奔东西”,在没有申请研究经费的情况下,利用暑假时间鼓捣出一项技术,这项技术后来直接成为图像和视频压缩的行业标准。

是DCT。

叫做离散余弦变换,也就是离散余弦变换。

有意思的是,DCT诞生之初,连作者自己都没有想到,它后来会有这么大的影响力。

没有DCT,就没有JPEG/MPEG。

很多人可能不知道什么是直接DCT,但是大家一定听说过JPEG。

赞美诗有损和无损的区别:无损压缩可以100%还原图像;有损不能,但是有损压缩后的图像尺寸会大大减小。

DCT是实现这一过程的基本技术。

它是傅里叶变换的一种,可以把图像从空间域变换到频率域,也就是把图像从像素矩阵变换成带有频率等信息的函数。

对于具体的变换过程,我们以图像中的一个3x3像素块为例:

源博园X-Pacific里博主们沉默的背影

这个像素块的DTC变换相当于把除了第一个像素以外的其他像素的所有信息都提取到第一个网格中。

这样,第一个网格的像素值就代表了一张图片的整体外观,称为低频信息;网格的其余部分代表图像中人或物体的细节,称为高频信息。

在DCT转换之后,每个3×3像素块将产生一个DC系数(位于第一个网格)和八个AC系数(剩余的网格),前者是DCT最重要的输出。

因为大部分镜像能量会集中在低频部分,所以转换后输出的DC系数值比较大,而输出的交流系数值比较小。

基于“人眼对低频分量的图像比对高频分量的图像更敏感”的原理,丢弃量化保留的低频分量,丢弃对视觉效果影响不大的信息,从而达到压缩的目的。

从下面两幅图像的三维投影可以看出DCT变换带来的变化:

在实际的JPEG压缩标准中,图像被分成几个8×8的像素块。

将颜色空间从RGB转换到YUV后,对每个块从左到右、从上到下进行DCT变换。

然后,量化每个块的系数。在这个过程中,一些重要的组成部分被删除,无法恢复。

因此,这是一种不可逆的有损压缩技术。

然后对量化后得到的AC系数和DC系数分别进行编码,霍夫曼编码后得到如下一系列数。

解压缩时,通过对每个图像块进行逆DCT变换,可以重构出完整的图像。

具体计算过程如下:

由于大部分值会分布在128左右,所以这些值都要减去128,这样更多的值会是0,有利于压缩。这时,范围就变成了。

然后用DCT变换公式进行变换,并用这个二维:

变换后根据量化表进行量化,将大部分系数改为0,完成压缩。

赞美诗量化表是根据人眼对量化误差的视觉阈值来确定的,有一个固定的表。

就是前面提到的一系列编码过程。

1974年1月,这项技术首次发表在《IEEE计算机汇刊》上。

从此,图像和视频压缩的行业标准诞生了。

1998年世界上第一个视频压缩标准H.261,1992年的JPEG和MPEG,2010年的WebP,2013年的HEIF,2018年Google和Amazon共同创建的AV1……等压缩标准都是基于这项技术,一直沿用至今。

一个默默无闻40多年的发明家。

DCT的作者有三位,分别是纳西尔·艾哈迈德(Nasir Ahmed)、K.R .拉奥(K.R Rao)和t .纳塔拉詹(T. Natarajan)。

Nasir是新墨西哥大学电子和计算机工程系的名誉教授。

他1940年出生于印度班加罗尔,1966年在新墨西哥大学获得博士学位。

1966年至1968年任霍尼韦尔总工程师,1968年至1983年任堪萨斯州立大学教授。

从1983年到2001年,他回到新墨西哥大学担任电气和计算机工程系的首席教授。在此期间,他先后担任系主任和研究生院院长。

今年,纳西尔已经82岁了。

另一位主要作者是K.R. Rao。

他也是一名印度裔美国学者。

1960年,他在佛罗里达大学获得了核工程博士学位。1966年,他在新墨西哥大学获得了电子和计算机工程博士学位。

在接下来的50年里,他作为电气工程系的教授在德克萨斯州的阿灵顿工作。

同时,他也是一个乔春明人。

2021年1月15日,饶教授逝世,享年89岁。

T.纳塔拉詹当时是纳西尔大学的博士生,但现在网上关于他的信息并不多。

可以说,与大名鼎鼎的DCT相比,有几个发明家是“默默无闻”的。

事实上,40多年来,DCT发明的幕后故事一直很少有人关注。

就连纳西尔的儿子也说,“我从没想过我父亲的影响会这么大”。

将纳西尔从幕后推上舞台的是一部美剧中的一波致敬。

2020年,《我们的生活》中有一个情节,纳西尔通过视频通话讲述了他和妻子的爱情故事。

剧情播出后,很多媒体将DCT定义为“改变世界的算法”,也就是Nasir,一个不知名的工程师,最终被从幕后推到了台前。

不过纳西尔在回忆视频中说,他真的没想到DCT会有这么大的影响。

我也无法预测技术发展的速度。我对FaceTime应用程序的出现感到非常惊讶。

纳西尔很年轻。

要知道,DCT一开始可能差点被扼杀在摇篮里。

1972年,当时已经构思出DCT的纳西尔向美国国家科学基金会递交了申请,希望NSF能够为他的DCT研究提供资金支持。

然而,出乎纳西尔意料的是,这份申请被直接扼杀了,法官给出的意见是“太简单了”。

幸运的是,纳西尔没有放弃。他一直觉得这个想法很有新意。

唯一让他担心的是,他可能要利用假期来完成DCT相关的工作,在此期间可能没有任何收入。

于是,纳西尔回家后对妻子说:

我有一种预感,这件事值得去做。只是我们需要计划如何度过一个没有工资的暑假。

他的妻子毫不犹豫地支持他。

于是,1973年夏天,DCT的研究工作正式开始。

参与这项研究的还有纳西的好友饶和博士生纳塔拉詹。

饶也是支持纳西尔研究DCT的重要人物之一。

纳西尔的申请被拍后,他第一次把自己的想法告诉了好友饶。

饶给了这样的答复:

你应该立即在一篇短文中发表这些结果。

这就是《我是如何想出离散余弦变换》诞生的始末。

之后的故事,也就是我们熟悉的。

1974年,离散余弦变换发表在IEEE计算机汇刊上。

截至目前,这篇文章已被引用5878次。

纳西尔曾在采访中说,他一生中最大的礼物就是人们对DCT的认可。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

分享到:

我来说两句

推荐阅读

作者信息

picture

竹隐

文章总数:

简介:作者没有留下简介。

精彩推荐

  • 覆盖新市民、老年人等群体 平安健康保险多措并举迎78保险公众宣传日

    覆盖新市民、老年人等群体 平安健康保险多措并举迎78保险公众

  • 长城资产上半年业务数据出炉,新增收购金融不良资产债权规模433亿元

    长城资产上半年业务数据出炉,新增收购金融不良资产债权规模43

  • 国务院发展研究中心陈道富:ESG不应成为新的约束,而是内在驱动力

    国务院发展研究中心陈道富:ESG不应成为新的约束,而是内在驱