发布日期: 2025-02-22
团队推出了新的众模态数字人计划OmniHuman,其能够对轻易尺寸和人物占比的单张图片勾结一段输入的音频举办视频天生,天生的人物视频恶果灵动,具有极度高的自然度。
字节跳动公司商讨职员开采了一种名为OmniHuman-1的人工智能模子,也许从单张图像天生传神全身动态视频,恶果令人齰舌。
该模子也许通过一张图片配合音频或视频,天生极度自然的会语言、唱歌的人类行为视频。正在天生动画时也许维系极高的实正在感,也许准确逮捕到人类的面部心情、身体行为、手势变更、物体交互等细节。
其助助百般分歧类型输入(如简单的人物图片和音频、视频等信号),天生极度传神的真人视频动画,涵盖从面部心情到全身行为,无论是语言、唱歌、舞蹈等,超越了以往仅能动画面部或上半身的AI模子。
据认识,该模子采用基于DiT架构的众模态运动条款同化教练战略,管理高质地数据稀缺题目。这项身手的中枢正在于,它勾结了文本、音频和人体行为等众种输入,通过一种称为“全条款”教练的立异步骤,使得AI也许从更大、更富厚的数据集结研习。
从评测结果而言,通过与众个已存正在的模子定量比照,OmniHuman算法正在众项评估目标上显示出明显上风。
商讨团队指出,OmniHuman经由胜过18700小时的人类视频数据教练,浮现出了明显的先进。通过引入众种条款信号(比如文本、音频和神情),这项身手不只晋升了视频天生的质地,再有用节减了数据的糜掷。
“OmniHuman通过引入众模态条款驱动和全条款教练战略,胜利管理了人类动画天生界限长久存正在的数据扩展和泛化才华题目。这一起色展示正在AI视频天生身手角逐日益激烈的配景下,谷歌、Meta和微软等公司也正在主动追赶好像身手。”有业内人士指出。
目前,除百度、腾讯、阿里巴巴等互联网公司,华为云、京东云、字节跳动、科大讯飞、商汤科技、小冰公司等厂商都已列入到虚拟数字人临蓐中。
天眼查数据显示,截至2024年9月底,中邦与数字人合联的企业数目已达114.4万家,仅2024年前五个月就新增注册企业17.4万余家,显示出数字人家产的商场潜力与生机。
浙商证券以为,数字人希望成为AI大模子的办事入口,正在助助企业竣工降本增效的同时,竣工toB办事正在toC侧的变现闭环。
IDC最新颁布的陈述显示,中邦虚拟数字人商场范畴露出高速延长趋向,估计到2026年将达102.4亿元。
智研筹商以为,跟着AI身手不息先进,智能驱动型虚拟数字人将成为商场主流。虚拟数字人的拟人化水平为其中枢特点及角逐力所正在,虚拟数字人席卷真人驱动型与人工智能驱动型,此中真人驱动型虚拟数字人仍离不开实际真人,其行为逮捕、音视频合成等均必要中之人配合竣工,拟人化水平更高。目前智能驱动型虚拟数字人受限于身手、筑筑身分,拟人传神水平不足真人驱动型。
来日跟着自然发言执掌、深度研习算法等AI身手的不息起色与冲破,智能驱动型虚拟数字人感知才华、外达才华与认知才华都将获得大幅晋升,且本钱也将进一步下滑。
正在机能与本钱上风不息流露下,也许竣工自我认知和进化的智能驱动型虚拟数字人将渐渐庖代真人驱动型虚拟数字人,成为商场主流,普遍地使用正在各个界限。加倍是AIGC身手的兴盛,将助力智能驱动型数字人性格化定制及智能化交互才华再上新台阶。