未来已来：数字人攻下直播间

专栏

转载

2023 08-14 11:03:35

作者：36kr
本文标签：数字人大模型技术虚拟人 36kr

面容姣好，发音端正，评论及时互动……热爱直播购物的朋友，一定会惊讶于近期直播间里涌现各类真假难辨的虚拟人主播。

直播领域一个不可忽视的现象是，数字人正在占领直播间。各类虚拟主播、虚拟偶像，以带货、虚拟演唱会等形式，产生着巨大的商业价值。

未来已来。元宇宙、AI等概念此起彼伏兴起之时，在中国的商业语境里，意外有了重叠。数字人，横跨两条赛道的概念，始终火热。

一个问题是，为什么，数字人会率先降临在直播间？

一、生成式AI虚拟人：两条路径

在生成式AI浪潮涌现后，生成式AI虚拟人的概念突然蔓延。虚拟人作为一种具象化的技术方式，突然被打开了想象力。严格来说，生成式AI虚拟人的应用场景，已经较为广泛，无论是长短视频生成，还是线下屏人机交互、游戏、在线社交与教育，直播带货，都有可行性。而在3D沉浸式应用中，又是人、物、场三要素的核心组成部分。

中科深智创始人兼CEO成维忠

在中科深智创始人兼CEO成维忠看来，从技术角度出发，国内外并无特别大的差距，正处于同一起跑线。但就产业发展的情况来看，国内相较于美国存在差距。全球范围内兴起的各类技术流派，无论哪一种，在2D虚拟人服务、游戏应用等场景，国外都有相对成熟的企业已经获得市场认可和应用，即使是国内在电商带货领域交出了不错成绩，也不能说进入了成熟的良性循环。

仅直播维度来说，从事虚拟人、数字人直播制作的公司很多。在元宇宙概念兴起的几年前，虚拟人作为传统技术与新兴概念结合的绝佳入口，被许多人视为布局元宇宙的切入点。就市场情况来看，即使是现在，大多数虚拟人制作公司仍将直播带货作为主要业务方向。同时，大部分虚拟动画制作公司技术架构较为单一，一般仅采用摄像头动捕技术，因此只能以性价比打开直播带货市场。

视频AIGC未来的技术路径，可能分为2D与3D两种。2D路径为图片生成-多图生成-可控序列帧图片生成-帧动画视频；3D路径为3D资产生成-资产导入实时引起-输入动作与表情数据驱动3D人物表演-虚拟相机拍摄产生视频。

可以看到，这完全是两条路径。从定义上来说。所谓2D技术的本质是图片生成，而3D技术的本质是虚拟世界仿真。

需要厘清的是，这里所说的2D与3D概念，并非指最终生成的影像内容是2D还是3D，而是指生成视频过程中的技术分类。2D无法向上兼容，但3D技术可以向下兼容。只有在3D路径中，才是贯穿始终的虚拟人，2D技术是帧动的图片，人物形象本质上是独立生成。

二、虚拟人技术，未来3D AIGC的入场券

当然，不同技术路径之间存在明显的优缺点。就当下而言，2D路径是 AIGC热点，涌入的资金量大，使得技术迭代较快，存在GAN、NerF、Diffusion等不同技术，最终产品相对写实与逼真，且用户的使用体验与所谓的文生图类似，上手简单。

缺点在于，无法实时生成，无法支持人机实时交互。更因为其并非连续生成，受限于隐空间问题，很难用于专业创作，无法支持未来可能出现的沉浸式、3D类应用。

而3D技术路径，更适合人机实时交互和复杂专业的内容生成，但就现下环境来说，并非文生文、文生图的主流路径，技术栈相对较长，对使用者的专业性要求也较高。

中科深智锚定的赛道，在于具备更多可能性的3D AIGC领域。整体来说，3D AIGC的市场中，可以粗略分为3D资产生成与3D视频生成两个领域，两者相关却又互相独立，技术路线也差异较大。前者包含虚拟人（包含动物）模型、物体模型、场景模型的生成，后者则是围绕虚拟人动作表情生成与实时渲染。

在3D AIGC的作品或者应用中，一个关键是，3D模型生成与绑定大约占整体投入的10-15%，而虚拟人表情与动作则占据约70%。这也是中科深智所押注的赛道所在，虚拟人动作与表情生成，可以说是3D AIGC完成商业化一跃的核心领域。把握住了这个关键，就是把握住了虚拟人技术的未来。

回到行业。2022年以前，在动捕技术与动作表情库剪辑占主流的虚拟人市场，由深层次AI算法驱动虚拟人技术，并没有引起市场足够的重视。甚至可以这么说，在当时，AIGC不能算是虚拟人生成领域的最优解，但大模型技术的发展成熟正在改变一切。

虚拟人背后的AI智能体链路，与动捕技术与动作表情库剪辑存在本质上的不同。先是输入，无论是动捕传感器数据，还是图像、语音语义、文本指令，都可以作为输入信号来“唤醒”；而后是多模态大语言模型与AI智能体，对于输入信号的解析，并声称对应的相应内容；最后的再通过动作与表情生成的专业模型，根据LLM传入的内容，实现拟人化，来驱动虚拟人完成影像输出。

具体到实际业务，以中科深智为例。最为核心的一定是底层算法，包括多模态语言大模型、3D模型生成Anyhuman、动作和表情生成CLLAP；而后是虚拟人的业务中台，基于底层算法构筑的模型库、虚拟人专用渲染方案，能够被标准化输出的API与SDK等入口；最终成为使用终端的AIGC应用，比如全能智播等 AIGC SaaS产品。

三、虚拟人的未来，会渗入到哪里？

这一过程中，AIGC技术公司的可能性，是作为“供给者”，为更多企业交付能力。中科深智的业务闭环，其商业模式，可以大致定义为“提供全流程、端到端的实时3D虚拟人产品”。向下拆解，其交付的核心解决方案，还是封装各类算法与能力的业务中台。

而构成中台的两大业务板块，一者是3D AIGC的能力输出板块。基于技术能力标准化后，为平台、应用以及解决方案服务商提供SDK。一者是 SaaS化的产品模块，包括人机交互的云小七、AI赋能直播间的全能智播、虚拟直播带货的自动播、AIGC动画的自动画等，更为聚焦的分类产品。

以全能智播为例。其本质，是一个为商家提供集主播、助播、场控、运营及客服功能于一体的全能数字人。基于大模型的能力，能够快速撰写直播脚本、定制人设并且实时回复与互动，并且根据直播数据实时调整战略甚至复盘。

就其提供的案例来看，淘宝某头部家居品牌，在使用全能智播后，无论是观看人数、成交人数、成交金额与客单价，环比都有显著提升。成交转化金额环比增长甚至超过50%。过往以简单播报为主的虚拟人主播，只是行业发展的初级阶段。虚拟主播强交互和场控的能力，显然会成为未来虚拟直播的发展方向之一。

成维忠认为，虚拟人技术的发展方向与趋势，会是XR与AI的有机结合。一方面，人与虚拟人的交流方式，不会只靠声音，还会在视觉等多种感官交互方式。2D 技术在视觉层面的写实优势，会成为3D技术的发力方向，但3D技术在内容控制方面的优势，又能实现底层数据3D化，借助Stable Diffusion这类新技术作为渲染器，完全可以综合发挥双方优势。

另一方面，虚拟人需要大脑。基于大模型技术，结合思维链、定向数据库等技术，匹配不同场景的虚拟人大脑得以成立。线上线下的场景也进一步被打通，有屏幕、有交互、有数据的场景，就是虚拟人的应用场景，虚拟店员、前台等虚拟员工，都是可以想象到的未来。

本站原创文章未经授权禁止转载，如有侵权内容请联系客服

热文榜单

未来已来：数字人攻下直播间

关注我们