AI造人：虚拟数字人正走进我们的生活-叠境数字-DGene

公司动态

AI造人：虚拟数字人正走进我们的生活

2020-03-31 15:59

近期，《时代周刊》新刊封面首度出现了“虚拟人”——美国民权领袖马丁·路德·金的“数字孪生兄弟”，封面上如同真人般写实的脸庞，是由好莱坞顶级视效公司数字王国联合艺术家 Hank Willis Thomas 通过虚拟人技术创作而成。

准备好接受一个数字世界吗？

数字王国复刻马丁·路德·金

本次沉浸式体验游行计划（ The March Project ），通过虚拟人像技术带领观众"穿越"到1963年8月28日的华盛顿林肯纪念堂，聆听那场经典的演讲。

数字王国前期收集了大量马丁·路德·金相关的视频和图片，提取他在演讲当天不同角度的姿态和光影体现。后期启用了摄影测量（从照片中测量）、运动捕捉、人工智能和3D渲染等技术制作而成。

在动作捕捉方面，数字王国在马丁·路德·金数字替身的脸上画了 190 个标记点，并给他戴上一个每秒60 帧运行的头戴式摄像机，再给数字替身穿上动作捕捉服，开始演绎。随后对数字替身进行面部和肢体的捕捉，再将肤色、体型、动作等信息映射到马丁·路德·金已有的数字肖像上。七位动画师耗时近三个月，完善了马丁·路德·金演讲时的动作，得益于基于庞大数据收集的机器学习，动画师们只需在微小的面部抽动、无意识的眨眼等细节上微调和完善，以不断接近真实。

有自己“灵魂”的三星“虚拟人”NEON

在CES 2020上，韩国三星STAR Labs正式展出了人工智人（Artificial Human）项目NEON。与一般“虚拟人”不同的是，它不会是百科般的语音助手，而能像真人一样快速响应对话，做出真实的表情神态。

效果是怎样的呢？例如微笑这样的表情，NEON不会每次微笑模样都一模一样。因为它可以构建机器学习模型，在对人物原始声音、表情等数据进行捕捉并学习之后，形成像人脑一样的长期记忆。

NEON之所以能像人一样拥有不断进化的学习能力，背后由两大核心技术Core R3、SPECTRA支撑。Core R3软件引擎，代表真实Reality、实时Realtime和响应Responsive。它能够自主创建与原始捕获数据完全不同的新表情、动作和对话，甚至可以使用多种语言进行交流，如汉语、英语日语、印地语等，且延迟时间不到几毫秒，目前Core R3还可以对开发者开放，与其他的专业或增值服务的系统进行连接。另一项核心技术Spectra，负责它的智能、学习、记忆和情感，该组件仍在开发之中。

AI快速生成以假乱真的虚拟数字人

在刘慈欣的小说《带上她的眼睛》中，主人公休假去旅游，上级要求他带上“一双眼睛”，当你戴上它时，你所看到的一切被远方的人接收到，于是他就能看到你所看到的一切，就象你带着他的眼睛一样。

进入5G时代，设备成本的降低、传输速度的提升、深度学习等算法的优化等，让很多科幻的场景成为现实，例如《头号玩家》中的“虚拟数字人”走近日常生活，在娱乐、文旅、教育等消费场景中发挥意想不到的价值：不用去健身房办理私教课，不用去培训班上一对多课程，在家实现一对一的“真人”教学；推动营销升级，消费者与明星“真人”亲密互动……

这样以假乱真的虚拟数字人背后涉及三大核心技术：光场（Light stage ）采集与三维建模、AI算法驱动表情动作和基于深度学习的光线追踪算法。

1.光场采集和三维建模

二维人脸技术发展了几十年虽然已经比较成熟，但是人脸关键点检测在各种大角度、多表情、复杂光照、面部遮挡等情况下，要实现实时高精度检测重建仍比较困难。而高精度深度相机的出现极大的推动了三维重建技术的发展。由上百个深度相机组成的全方位相机阵列，模拟人眼的各个视点方向对真人360度环拍摄影，瞬间实时采集真人的光场信息。国内AI企业叠境数字自主研发的这套全方位的光场采集系统还使用了深度学习、语义理解等人工智能技术，通过机器学习来模拟人眼的视觉感知能力，最终实现人眼成像机理般的清晰、完整、准确的重建三维模型。

其实，在光场（Light stage ）三维建模出世之前，因固定光源环境下拍摄真人造成的人物三维模型失真问题一直是行业的技术难点。而在光场（Light stage ）的高速可变光源拍摄环境下，真人三维模型真实度较之以前有大幅提提升。

2 AI算法驱动动作表情

数字人每做一个表情动作，模型师需要对模型进行拓扑、绑定和驱动。对三维人物模型来说，越高质量的数字人越需要大量的绑定工作，特别是人脸部位的骨骼和肌肉细微变化，可形成上千种表情。

怎么让“虚拟数字人”的表情如真人般更丰富、细腻、真实？叠境通过深度摄像机光场采集三维人脸表情和动作数据，针对不同人，采集多种表情。利用这些数据积累，再借助AI算法和一段时间的深度学习训练人脸表情，最终的训练结果是虚拟数字人在嘴角眼部的张合幅度、眼神的细微变化、肌肉的轻微颤抖等表情几乎与真人接近一致。

3 基于深度学习的光线追踪算法

一般电影和影视节目的制作周期比较长，采用常规渲染技术需较长的时间预览渲染后的特效。怎么大幅提升渲染速度、降低时间成本？基于深度学习的光线追踪算法，改变了三维人物模型的生成方式，使三维人物模型的生成方式更加实时智能，生成的模型也更加自然真实。

我们用常规渲染技术和基于深度学习的光线追踪算法分别生成的“人物模型”对比图来看下效果，就明白为什么基于深度学习的光线追踪算法让虚拟数字人更逼真？

常规渲染技术的数字人

光线追踪算法的数字人

莎士比亚在《仲夏夜之梦》中曾经写道：想象的东西往往是虚无缥缈的，但在诗人的笔下，它们可以有形、有固有的实质。在5G时代，视觉呈现的技术革新从未止步，它以全所未有的方式一次次打破原有的感知，为用户打造无与伦比的体验。这次，三维智能视觉的虚拟数字人正向我们走来……

AI造人：虚拟数字人正走进我们的生活

Categories