视频会议卡成PPT?这套AI算法要帮用户化解这种尴尬 | 硬科技

界面新闻

text

新冠疫情期间,人们更多地在网络上进行视频通话和会议。当通话进行时,模糊、卡顿、跳帧的现象却在网速不佳的情况下经常发生。英伟达(Nvidia)开发的一项新技术有望能够解决这些问题,为用户带来更为流畅的“云办公”体验。

近日,英伟达宣布为开发者推出一款名为Nvidia Maxine的新视频会议平台。据英伟达官方网站消息,通过搭载神经元网络与人工智能技术,Maxine能够更高效地处理通话过程中所生成的数据,将同等清晰度视频通话的宽带要求“降低到H.264流媒体视频压缩标准要求的十分之一”,并在同等网络条件下生成更清晰、流畅的视讯影像。

在英伟达公布的一项演示中,视频通话所需数据速率在使用Maxine后从97.28KB/骤降至0.1165KB/帧——节省了近99.9%的数据传输量。英伟达称,Maxine技术在未来将会进一步降低通话过程中的流量消耗。

“通过AI技术,我们能够为用户提供更好的视频通话体验。即使是在网络不佳的条件下,通话质量也能获得明显提升。”一位英伟达的技术人员评价。

图片来源:英伟达

新算法背后的原理简单易懂。据研究人员介绍,系统会首先捕捉通话者的静态面部照片,以此为参考,软件不必再将整个视频的像素进行流式传输,只需要分析通话中每个人的关键面部点,便可以在另一边的视频中智能重现面部。英伟达高级产品总监安德鲁·佩奇(Andrew Page)称,他们的解决方案的本质是将带宽问题变成算力问题,相比于增加带宽,增加算力无疑更为容易。

该技术在机器学习中采用了一种名为“对抗生成网络”(generative adversarial network,GANs)的工具,它的原理是让两个神经网络相互竞争,以生成与原始图像高度吻合的虚假图像。GANs能够有效地减少机器学习中所配置的人力资源,大幅提升机器的学习效率。GANs近年来在人工智能及深度学习等领域获得广泛应用,去年风靡一时的DeepFake软件也采用了这项技术。

通过GANs,Maxine能够使用静态照片与面部关键点重建人物面部,智能地调整通话者的面部朝向。“我们能在一定角度内重构通话者的视觉影像,”研究人员表示,“我们相信这能让用户在网络上的交流更加自然。”

图片来源:英伟达

Maxine并非一个直接面向消费者的软件,而是提供给第三方公司用以升级自家的视频通话系统。据英伟达官网显示,除了网络优化以外,Maxine还能为开发者提供视频清晰度提升、噪音消除、实时翻译、字幕转录等功能。

Maxine现已投入使用。此前,英伟达宣布与通信公司Avaya达成合作协议,后者将使用Maxine的部分功能,优化旗下多合一视频会议和协作应用程序Avaya Spaces的用户体验。