在GTC会议上,英伟达推出了由云计算GPU支持的人工智能视频会议组件Maxine,它可以让用户以H.264流媒体图片标准十分之一的带宽传输高性能的图片。由于Maxine采用了云计算原生架构,开发人员也可以利用Kubernetes的可扩展性来扩展服务规模。此外,Maxine集成了视频、音频、对话的高级AI功能,提供了视线矫正、超高分辨率、消噪、人脸照明等功能。
英伟达采用了人工智能的新技术,大大降低了视频传输所需的带宽。Maxine并不是真的对整个画面的像素进行流式处理,而是通过人工智能技术分析每个会议参与者面部的关键点,并在另一端进行动画处理,因此要传输的数据会比完整画面少很多。
Nvidia采用在GPU上实现的人工智能视频压缩技术,将视频段宽的消耗降低到H.264流媒体视频压缩标准的十分之一,不仅降低了服务商的成本,还让终端用户使用更少的传输数据,获得流畅的视频会议体验。
Maxine还应用了生成对抗网络的技术,使视频会议服务提供商能够提供各种功能来改善视频会议体验,例如自动纠正面部,可以使面部直视所有会议参与者,纠正会议参与者的视线,模拟眼神交流。这些功能使会议参与者能够保持专注于与人交谈的状态,即使他们不看摄像头。
视频会议服务商还可以增加身体双重功能,让会议参与者可以选择用动画人物代替自己的图片,瞬间表达自己的情绪和声音。此外,Maxine还可以提供人像注意功能,即使说话人随意移动,画面也会自动跟随说话人。
Maxine集成了各种英伟达人工智能SDK和API,比如可以提供会话式人工智能的SDK Jarvis。通过集成虚拟助手,开发人员可以将语音识别、语音理解和语音生成添加到视频会议服务中,并让虚拟助手做笔记、帮助配置项目或用语音回答问题。他们还可以提供翻译、字幕和语音转文本服务,帮助与会者理解会议内容。
除了Jarvis,Maxine平台还使用DeepStream SDK增强音视频功能,使用TensorRT SDK进行高性能深度学习推理。官方表示,Maxine平台上的人工智能操作都是在云计算中处理的,因此终端用户无需使用特殊的硬件就可以获得这些人工智能功能。
Maxine的云计算原生基础设施设计使用GPU执行Kubernetes容器集群,提供各种人工智能微服务。因此,开发人员可以扩大服务规模,响应大量突发请求。Maxine的模块化设计允许开发人员选择所需的人工智能功能,并将其集成到视频会议解决方案中。