小黄篇 AI还原地道京片子 作者亲自揭秘老北京视频语音修复 网友:黄渤穿越了

栏目:旅游 2021-09-19 13:46:58
分享到:

由大数据文摘制作

我们总是对历史充满无限的遐想,而北京却充满了太多的故事,这是对过去或现在生活在这里的人的一种感受。

在电影中,我们经常可以看到老北京街道的修复,但风景终究只是风景。想象一下,90年前,有人用相机记录下了一切。

早在5月,微博博主大谷·斯皮策就分享了他对百年前老北京视频的修复结果。如今,在央视的配合下,第二期节目终于在两个月后如约而至。在新视频中,除了老北京依然熙熙攘攘的街道,你还可以看到许多生活场景,甚至可以听到他们的声音。

比如,孩子在校外买饭时的噪音:

或者在街上演奏的盲人音乐家:

即使是在修面摊上修面,这种效果也能和很多托尼老师媲美:

“剃这个头很疼,剃得厉害很疼!”

“你家有几口人?”

“十个人?!怎么这么多人?”

“一天挣两分钱够挑费用吗?”

看到这,有网友说“感觉理发师说了一句相声”。

这个剃光头的小哥哥也是个话匣子。当他拍着头对着镜头说“刮得真好”的时候,消化细菌想,为什么这么像“黄波×夏雨”?

一些网友也同意了,笑着说:“黄波,你为什么要穿越回去剃光头?”。

这一次,除了画面,声音修复是一大亮点。但是由于GIF的限制,如果你想听最纯正的老北京话,可以点击下面的链接:

对于大谷来说,有了两次经验,这个修复项目就得心应手多了。大谷对整体效果的呈现也很满意,但是颜色还是会闪烁,分辨率可以提高。

大谷说会总结每一次的经验教训,争取下一次比上一次更好。当然,他也会尝试加入一些新技术。

在这个修复项目中,大谷和央视合作。在央视的宣传下,更多的人得以领略老北京百年的风光。很多网友感叹科技的进步和贡献:

有网友感叹时间的流逝。“未来90年,未来的人会看到我们现在的生活,不知道会是什么样子。”。

视频发布一周后,在微博、知乎等众多社交平台上掀起了讨论热潮。消化菌也再次联系大谷,复试的时候他好像有很多事情要做。

用AI项目做声音修复。老北京视频有声音!

谈到这段视频的来源,大谷说可以称得上是修复过程中最难的地方。

虽然在网上可以找到两个相关的视频图片,一个两分钟的宣传片,一个六分钟的故事片,但网上版本水印很重,基本无法使用,引发大谷向南卡罗来纳大学视频库“求助”,申请视频使用权,得到了学校内部版本的视频,解决了水印问题。

“那边的人很配合。”大谷说,当然他们提出了一些要求,那就是在视频前加上小黄纸和版权声明。此外,视频的后续处理和分享都是免费的。

视频开头的小黄纸

除了水印,由于年龄差距,这两个视频和故事片的内容都没有重复。此外,当时的工作人员不懂中文,两个视频的时间顺序完全混乱。比如前一秒是视频的内容,下一秒马上跳到整部电影的结尾。

所以拿到这个视频后,大谷的第一个工作就是把视频重新编辑到正确的时间流。

在声音的修复上,当时制作团队使用的录音设备无形中帮助很大。微博网友@失重朱良介绍:

福克斯有声电影新闻在当时是一种比较新的模式。与华纳兄弟开发的Vitasoy和RCA开发的光电留声机不同,福克斯的有声电影属于单摄像头系统,可以同时在胶片上录制声音和画面,相比以往非常方便。目前国内制作的原声电影很多都来自福克斯系列。

得益于先进的设备,视频本身的录制效果足够好。此外,南卡罗来纳大学可能已经进行了一些初步处理。大谷的工作主要是底层去噪,也就是去掉录音中经常出现的吱吱毛刺。

大谷说,AE或PR中的去噪功能非常好,系统会先学习一个短的噪声波形,然后自动抵消后续的噪声,这样听起来会清晰很多。但是去噪主要是针对低频声音,整体音效经过处理后会听起来“干”,所以去噪后大谷加入了一些混响,让声音听起来更加自然,当然抽象菌根本没有认出来。

但是在盲人演奏的音乐中,大谷除了混响之外没有做任何其他处理,因为音乐本身的混音比较严重。如果噪音再次消除,低音乐器的声音将被掩盖。

后来大谷还推出了一个声音还原的AI项目。通过导入无声电影,AI系统可以自动补充音效。比如通过导入“火车进站”,系统可以补充火车的音响效果,从远到近都非常逼真。有了这项技术,更容易修复更多老电影的声音。

不过这个项目还没有开源,大谷表示会继续关注最新进展。

论文链接如下,感兴趣的朋友可以试试看:

http://bvision 11 . cs . unc . edu/big pen/yipin/visual 2 sound _网页/visual2sound.html

大谷说,这其实是第一次修复原声视频,也是一个重大进步。南卡罗来纳大学的视频库中还有很多旧的音频视频,希望以后能和他们保持联系。

画面大幅升级:边缘更平滑,整体效果更好

除了声音修复,抽象菌还注意到,与第一个视频相比,这个视频中屏幕上的颜色跳跃要少得多,这与大谷使用的软件不同直接相关。

大谷说,一开始画面分辨率有了进一步的提升。与第一阶段不同的是,这次修复主要使用的是Topaz,Topaz的边缘处理更平滑,画面效果更好。

其次,采用了DeepRemaster技术。与这项技术的相遇是在YouTube上的推荐流中,这实际上是GitHub上的一个开源项目,目前仍在研究中。

GitHub链接:https://github.com/satoshizuka/siggraphasia2019重制

在发现这项技术后,大谷通过电子邮件发送,并获得了两名日本研究人员的同意。

使用过程中,大谷发现DeepRemaster非常好用,可以导入一些手绘图纸或者历史图片作为参考图片,这样在参考图片的范围内还原效果会比较稳定,场景中的色彩抖动也会变得比较稳定。

在这段视频中,盲人音乐家表演的部分和“黄波”拍摄的部分都是通过这项技术实现的。

当然,DeepRemaster技术本身也存在瓶颈,并不是所有场景都能直接应用。就大谷的个人体验来看,对于动作剧烈或者人脸众多的场景,比如街头,是不可能使用这种技术的。DeepRemaster更适合那些静止画面和运动画面,比如音乐表演。

大谷也将画面和声音的修复工作有机结合。比如电脑自动补帧时,可以利用空间隙修复PR上的声音。两部分可以不矛盾地进行,有时穿插进行,声音部分会进行第二次返工。

除了音画的修复,我们还注意到大谷在这个项目上也和央视合作过。他说主要负责技术修复,央视主要负责公告。“也省了不少力气,上传审核视频也很费时间。”。

有了前两次的经验,这次修复似乎容易了很多。整个生产周期持续一个月左右。在这段时间里,我没有投入其中,但我也开发了自己的游戏,做了一些其他的项目。

在与央视合作的过程中,央视也会对整体还原提出参考意见,如音乐剪辑、字幕添加等。大谷感叹,加字幕的过程也是一种学习体验,也能让观众更好地理解人物之间的对话。

不仅如此,修复后的旧视频在社交媒体上传播后,大谷收到了很多反馈。比如第二个旧视频的来源原本就比较模糊。后来根据修复后的图片等资料,大神指出是100年前济南西门的老罗源门,是一次有价值的互动。

欢迎来到案件的解决过程:https://www.zhihu.com/question/399225415

神器深度改造师:如何稳定参考地图内的修复效果

和第一个还原视频一样,在这个新的视频流程中,大谷依然借鉴了YouTube博主Denis Shiryae的视频还原教程,采用了上海交通大学联合提出的DAIN补帧技术。

此外,如上所述,新视频中使用的新技术DeepRemaster由日本筑波大学和早稻田大学的两位研究人员共同提出,论文被收录在计算机图形学顶级会议SIGGRAPH Asia 2019上。

论文链接:http://iizuka.cs .筑波. AC . jp/project/remastering/en/index . html

DeepRemaster之所以强大,是因为它不同于近年来使用递归模型的视频处理方法,而这种方法对旧图像的恢复是基于全卷积网络的。

在这项研究中,研究人员提出了一个单一的框架,该框架基于具有注意机制的时间卷积神经网络,主要以半交互方式处理所有再现任务。同时,本文提出的源参考注意允许模型在不分割的情况下处理任意数量的彩色参考图像,并很好地保持了时间一致性。

输入一系列黑白图像,通过预处理网络进行修复,修复结果作为最终输出视频的亮度通道。然后,源参考网络将预处理网络的输出与任意数量的彩色参考图像相结合,以生成视频的最终色度通道。

在效果测试中,研究人员测试了一些旧视频,如下图。正如大谷所说,在静止场景下,输入少量参考图像后,系统可以输出数千张稳定一致的图像。

与以往的方法相比,DeepRemaster生成的图像更符合真实世界的颜色。

未来,大谷表示将继续关注新技术和旧视频修复,并将尝试将这些新的AI修复技术应用到旧视频修复中。

换句话说,现在还能期待第三期老北京修复视频吗?!搓搓手~