未来已来:数字人攻下直播间

专栏
转载
2023 08-14 11:03:35
分享
作者:36kr
本文标签:数字人 大模型技术 虚拟人 36kr

面容姣好,发音端正,评论及时互动……热爱直播购物的朋友,一定会惊讶于近期直播间里涌现各类真假难辨的虚拟人主播。

直播领域一个不可忽视的现象是,数字人正在占领直播间。各类虚拟主播、虚拟偶像,以带货、虚拟演唱会等形式,产生着巨大的商业价值。

未来已来。元宇宙、AI等概念此起彼伏兴起之时,在中国的商业语境里,意外有了重叠。数字人,横跨两条赛道的概念,始终火热。

一个问题是,为什么,数字人会率先降临在直播间?

一、生成式AI虚拟人:两条路径

在生成式AI浪潮涌现后,生成式AI虚拟人的概念突然蔓延。虚拟人作为一种具象化的技术方式,突然被打开了想象力。严格来说,生成式AI虚拟人的应用场景,已经较为广泛,无论是长短视频生成,还是线下屏人机交互、游戏、在线社交与教育,直播带货,都有可行性。而在3D沉浸式应用中,又是人、物、场三要素的核心组成部分。

中科深智创始人兼CEO成维忠

中科深智创始人兼CEO成维忠看来,从技术角度出发,国内外并无特别大的差距,正处于同一起跑线。但就产业发展的情况来看,国内相较于美国存在差距。全球范围内兴起的各类技术流派,无论哪一种,在2D虚拟人服务、游戏应用等场景,国外都有相对成熟的企业已经获得市场认可和应用,即使是国内在电商带货领域交出了不错成绩,也不能说进入了成熟的良性循环。

仅直播维度来说,从事虚拟人、数字人直播制作的公司很多。在元宇宙概念兴起的几年前,虚拟人作为传统技术与新兴概念结合的绝佳入口,被许多人视为布局元宇宙的切入点。就市场情况来看,即使是现在,大多数虚拟人制作公司仍将直播带货作为主要业务方向。同时,大部分虚拟动画制作公司技术架构较为单一,一般仅采用摄像头动捕技术,因此只能以性价比打开直播带货市场。

视频AIGC未来的技术路径,可能分为2D与3D两种。2D路径为图片生成-多图生成-可控序列帧图片生成-帧动画视频;3D路径为3D资产生成-资产导入实时引起-输入动作与表情数据驱动3D人物表演-虚拟相机拍摄产生视频。

可以看到,这完全是两条路径。从定义上来说。所谓2D技术的本质是图片生成,而3D技术的本质是虚拟世界仿真。

需要厘清的是,这里所说的2D与3D概念,并非指最终生成的影像内容是2D还是3D,而是指生成视频过程中的技术分类。2D无法向上兼容,但3D技术可以向下兼容。只有在3D路径中,才是贯穿始终的虚拟人,2D技术是帧动的图片,人物形象本质上是独立生成。

二、虚拟人技术,未来3D AIGC的入场券

当然,不同技术路径之间存在明显的优缺点。就当下而言,2D路径是 AIGC热点,涌入的资金量大,使得技术迭代较快,存在GAN、NerF、Diffusion等不同技术,最终产品相对写实与逼真,且用户的使用体验与所谓的文生图类似,上手简单。

缺点在于,无法实时生成,无法支持人机实时交互。更因为其并非连续生成,受限于隐空间问题,很难用于专业创作,无法支持未来可能出现的沉浸式、3D类应用。

而3D技术路径,更适合人机实时交互和复杂专业的内容生成,但就现下环境来说,并非文生文、文生图的主流路径,技术栈相对较长,对使用者的专业性要求也较高。

中科深智锚定的赛道,在于具备更多可能性的3D AIGC领域。整体来说,3D AIGC的市场中,可以粗略分为3D资产生成与3D视频生成两个领域,两者相关却又互相独立,技术路线也差异较大。前者包含虚拟人(包含动物)模型、物体模型、场景模型的生成,后者则是围绕虚拟人动作表情生成与实时渲染。

在3D AIGC的作品或者应用中,一个关键是,3D模型生成与绑定大约占整体投入的10-15%,而虚拟人表情与动作则占据约70%。这也是中科深智所押注的赛道所在,虚拟人动作与表情生成,可以说是3D AIGC完成商业化一跃的核心领域。把握住了这个关键,就是把握住了虚拟人技术的未来。

回到行业。2022年以前,在动捕技术与动作表情库剪辑占主流的虚拟人市场,由深层次AI算法驱动虚拟人技术,并没有引起市场足够的重视。甚至可以这么说,在当时,AIGC不能算是虚拟人生成领域的最优解,但大模型技术的发展成熟正在改变一切。

虚拟人背后的AI智能体链路,与动捕技术与动作表情库剪辑存在本质上的不同。先是输入,无论是动捕传感器数据,还是图像、语音语义、文本指令,都可以作为输入信号来“唤醒”;而后是多模态大语言模型与AI智能体,对于输入信号的解析,并声称对应的相应内容;最后的再通过动作与表情生成的专业模型,根据LLM传入的内容,实现拟人化,来驱动虚拟人完成影像输出。

具体到实际业务,以中科深智为例。最为核心的一定是底层算法,包括多模态语言大模型、3D模型生成Anyhuman、动作和表情生成CLLAP;而后是虚拟人的业务中台,基于底层算法构筑的模型库、虚拟人专用渲染方案,能够被标准化输出的API与SDK等入口;最终成为使用终端的AIGC应用,比如全能智播等 AIGC SaaS产品。

三、虚拟人的未来,会渗入到哪里?

这一过程中,AIGC技术公司的可能性,是作为“供给者”,为更多企业交付能力。中科深智的业务闭环,其商业模式,可以大致定义为“提供全流程、端到端的实时3D虚拟人产品”。向下拆解,其交付的核心解决方案,还是封装各类算法与能力的业务中台。

而构成中台的两大业务板块,一者是3D AIGC的能力输出板块。基于技术能力标准化后,为平台、应用以及解决方案服务商提供SDK。一者是 SaaS化的产品模块,包括人机交互的云小七、AI赋能直播间的全能智播、虚拟直播带货的自动播、AIGC动画的自动画等,更为聚焦的分类产品。

以全能智播为例。其本质,是一个为商家提供集主播、助播、场控、运营及客服功能于一体的全能数字人。基于大模型的能力,能够快速撰写直播脚本、定制人设并且实时回复与互动,并且根据直播数据实时调整战略甚至复盘。

就其提供的案例来看,淘宝某头部家居品牌,在使用全能智播后,无论是观看人数、成交人数、成交金额与客单价,环比都有显著提升。成交转化金额环比增长甚至超过50%。过往以简单播报为主的虚拟人主播,只是行业发展的初级阶段。虚拟主播强交互和场控的能力,显然会成为未来虚拟直播的发展方向之一。

成维忠认为,虚拟人技术的发展方向与趋势,会是XR与AI的有机结合。一方面,人与虚拟人的交流方式,不会只靠声音,还会在视觉等多种感官交互方式。2D 技术在视觉层面的写实优势,会成为3D技术的发力方向,但3D技术在内容控制方面的优势,又能实现底层数据3D化,借助Stable Diffusion这类新技术作为渲染器,完全可以综合发挥双方优势。

另一方面,虚拟人需要大脑。基于大模型技术,结合思维链、定向数据库等技术,匹配不同场景的虚拟人大脑得以成立。线上线下的场景也进一步被打通,有屏幕、有交互、有数据的场景,就是虚拟人的应用场景,虚拟店员、前台等虚拟员工,都是可以想象到的未来。



本站原创文章未经授权禁止转载,如有侵权内容请联系客服