Meta发布AI系统MoCha：瞬间将文字转化为生动流畅的动画角色，口型与动作完美契合

来源：星火智游网责编：网络时间：2025-04-27 23:40:53

Meta联合滑铁卢大学的研究人员近日共同发布了一款名为 MoCha 的全新 AI 系统，能够通过简单的文本描述生成带有同步语音和自然动作的完整动画角色。这一创新技术有望极大地提升内容创作的效率和表现力，并在多个领域展现出巨大的应用潜力。

打破传统，全身动画与精准口型同步

与以往侧重于面部表情的 AI 模型不同，MoCha 的独特之处在于能够渲染全身的自然运动。无论是从近距离还是半近距离拍摄，系统都能根据文本内容生成包括 唇部同步、手势以及多角色之间的互动 等细腻动作。早期的演示主要集中在上半身，展示了系统如何使角色的口型与对话内容精准匹配，肢体语言也与文本所表达的含义自然契合。

为了实现更精确的唇部同步，研究团队创新性地引入了 “语音-视频窗口注意力”机制。这一机制有效地解决了 AI 视频生成中长期存在的两大挑战:音频保持完整分辨率时视频处理过程中的信息压缩，以及并行视频生成时容易出现的口型错位问题。其核心原理在于 限制每一帧画面只能访问特定窗口范围内的音频数据。这种方法模仿了人类语音的运作方式——口部动作依赖于即时声音，而肢体语言则跟随更广泛的文本模式。通过在每帧音频前后添加标记，MoCha 能够生成更流畅的过渡和更准确的唇语同步效果。

多角色轻松管理，提示系统简洁高效

在处理包含多个角色的场景时，MoCha 团队开发了一套 简洁高效的提示系统。用户只需 定义一次角色信息，便可以通过简单的标签（如 ‘Person1’，‘Person2’）在不同的场景中引用这些角色。这种方式避免了重复描述角色的繁琐过程，使得多角色动画的创作更加便捷。