来源:星火智游网 责编:网络 时间:2025-04-27 23:32:05
Meta 与滑铁卢大学的研究团队共同开发了一款名为 MoCha 的人工智能系统,能够生成包含同步语音和自然动作的完整角色动画。这一创新突破不同于以往仅聚焦于面部的动画生成模型,MoCha 可从多个摄像机角度渲染全身动作,涵盖嘴唇同步、手势表现,以及多个角色之间的互动。
MoCha 的演示重点展示了特写镜头和半特写镜头下的上身动作与手势同步生成。该系统的独特之处在于其引入的“语音-视频窗口注意”机制,这一机制成功解决了长期以来困扰 AI 视频生成的两个主要挑战:一是视频压缩时如何保持音频的全分辨率,二是在并行生成视频时避免唇部运动与音频不匹配的问题。
MoCha 的创新之处在于,通过限制每帧访问特定音频数据窗口,模拟了人类的发音方式——嘴唇运动与即时声音密切相关,而肢体语言则依据更广泛的文本模式展现。通过在每帧音频前后添加标记,MoCha 能有效实现更平滑的过渡和更精准的嘴唇同步。
MoCha 根据文本描述生成带有面部、手势和嘴唇动作的逼真视频。
为了构建该系统,研究团队使用了300小时精心筛选的视频内容,并结合基于文本的视频序列来扩展表现和互动的可能性。尤其是在多角色场景下,MoCha 展现了其强大的能力,用户只需简单地定义角色一次,便可通过标签(如“人物1”或“人物2”)在不同场景中轻松调用,无需重复描述。
在150种不同场景的测试中,MoCha 在口型同步与自然动作的质量上,均超过了同类系统。独立评估人员一致认为该系统生成的视频高度逼真,表现出了前所未有的精度与自然度。
研究人员开发了一个提示模板,让用户无需重复描述即可引用特定字符。
MoCha 的开发使其在多个应用领域展现出巨大潜力,尤其在数字助理、虚拟化身、广告与教育内容等领域。尽管 Meta 尚未透露该系统是否会开源,或仍处于研究原型阶段,但这一技术的推出无疑为 AI 驱动的视频生成开辟了新的篇章。
在人工智能视频技术竞争日益激烈的背景下,MoCha 的发布尤为引人注目。Meta 最近也推出了 MovieGen 系统,而 TikTok 母公司字节跳动则在研发自己的人工智能动画工具,包括 INFP、OmniHuman-1和 Goku,显示出社交媒体公司在这一领域的积极布局。
自来也和纲手拔萝卜配音声音以其独特之韵味,令众人潜心于二者之互动。二者之声,乃是共鸣之道,情感之流,使人宛如置身于其境。二人虽在不
在当今这个信息爆炸的时代,网上的娱乐内容琳琅满目,其中漫画作为一种轻松、幽默的艺术形式,受到了众多年轻人的喜爱。尤其是歪歪㊙️羞羞
秋蝉漫画入口页面弹窗下拉式者,乃近来网络之新兴形式,旨在为众多漫画爱好者提供更加便捷之浏览体验。此一设计,非但省却繁杂之操作,且以
在这个数字化的时代,我们的生活离不开各种电子设备和互联网。而对于很多人来说,搞机 time 已经成为了一种生活方式。搞机,不仅可以让我
Meta 发布 MoCha AI 系统:实现角色动画的同步语音与动作生成新技术
ChatGPT 借助 “吉卜力热潮” 快速增长,付费用户数量突破 2000 万大关
Meta AI 研究负责人皮诺宣布离职 650亿美元投资计划仍在持续推进中
OpenAI 低调推出 OpenAI 学院,免费提供丰富的人工智能学习资源,助力教育发展
国家天文台与阿里云联合推出全球首款太阳大模型“金乌”:M5级耀斑预报准确率成功突破91%水平
GPT-4o的图像生成技术不断突破,展现多领域卓越才能,激发AI创意的新极限
纸嫁衣4第三章:在迷雾重重的情节中揭开真相的秘密与探索
顺丰同城与豆包、腾讯混元等多家企业成功建立战略合作关系,以推动本地服务的发展
伟大的妈妈35节阅读答案:在游戏中学习与成长的乐趣与启示(游戏教育的重要性与亲子互动)
Krea全新上线3D生成功能,并全面优化网站界面,可能借助混元技术提升用户体验