来源:星火智游网 责编:网络 时间:2025-04-25 23:15:35
近日,HPC-AI Tech 宣布推出 Open-Sora2.0,这是一款突破性的视频 AI 系统,仅需约十分之一的典型训练成本即可实现商业级质量。这一进展标志着在资源密集型的视频 AI 领域可能出现范式转变,堪比语言模型中出现的效率提升。
虽然像 Movie Gen 和 Step-Video-T2V 这样现有的高质量视频生成系统可能需要数百万美元的训练费用,但 Open-Sora2.0的训练支出仅约为20万美元。尽管成本大幅降低,但测试表明,其输出质量可与 Runway Gen-3Alpha 和 HunyuanVideo 等已建立的商业系统相媲美。该系统使用了224个 Nvidia H200GPU 进行训练。
提示:“两个女人坐在米色沙发上,房间温馨舒适,背景是砖墙。她们愉快地交谈,面带微笑,在亲密的中景镜头中举杯庆祝红酒。”| 视频:HPC-AI Tech
Open-Sora2.0通过一种新颖的三阶段训练过程实现其效率,首先从低分辨率视频开始,逐步细化到更高分辨率。集成像 Flux 这样的预训练图像模型进一步优化了资源利用。其核心是视频 DC-AE 自动编码器,与传统方法相比,它提供了卓越的压缩率。这一创新转化为令人瞩目的5.2倍更快的训练速度和超过十倍更快的视频生成速度。虽然更高的压缩率导致输出细节略有减少,但它极大地加快了视频创建过程。
提示:“一颗番茄在一片生菜上冲浪,顺着牧场酱汁瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了3D 动画的乐趣。”| 视频:HPC-AI Tech
这款开源系统可以从文本描述和单张图像生成视频,并通过运动评分功能让用户控制生成片段中的运动强度。HPC-AI Tech 提供的示例展示了各种场景,包括逼真的对话和异想天开的动画。
然而,Open-Sora2.0目前在分辨率(768x768像素)和最长视频时长(5秒或128帧)方面存在限制,逊于 OpenAI 的 Sora 等领先模型的功能。尽管如此,其在视觉质量、提示准确性和运动处理等关键领域的表现正逼近商业标准。值得注意的是,Open-Sora2.0的 VBench 得分现在仅落后 OpenAI 的 Sora0.69%,与之前版本4.52% 的差距相比有了显著改进。
提示:“一群拟人化的蘑菇在一片黑暗的魔法森林中举行迪斯科派对,伴随着闪烁的霓虹灯和夸张的舞步,它们光滑的纹理和反光的表面强调了滑稽的3D 外观。”| 视频:HPC-AI Tech
Open-Sora2.0的成本效益策略与语言模型中的“Deepseek 时刻”相呼应,当时改进的训练方法使开源系统能够以远低于商业系统的成本实现商业级性能。这一发展可能会对视频 AI 领域的价格产生下行压力,该领域目前由于计算需求高昂,服务按秒收费。
培训成本比较:Open-Sora2.0需要大约20万美元,而 Movie Gen 需要250万美元,Step-Video-T2V 需要100万美元。| 图片:HPC-AI Tech
尽管取得了这一进展,但开源和商业视频 AI 之间的性能差距仍然大于语言模型,这突显了该领域持续存在的技术挑战。Open-Sora2.0现在已在 GitHub 上作为开源项目提供。
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
成本仅需十分之一!Open-Sora 2.0 开源视频 AI 技术实现商业级画质的革新
燕云十六声中各种游戏货币类型的详细解析与使用指南
探讨鹿鼎记中哪些职业在游戏中表现更好,玩家选择职业的最佳建议
Anthropic正致力于为Claude聊天机器人引入语音功能,这将可能改变人机交互的方式和体验
无双深渊:详尽购买指南与攻略分享,助你轻松驾驭全新挑战
生化危机6发布的准确时间以及各类相关分析与讨论
科技赋能生命未来!中国首个出生健康管理大模型CHANGE正式发布,引领健康管理新纪元
别再受 AI 虚假信息的迷惑!这五款强大工具助你快速识别内容的真实性
在王者荣耀中高效获得小蛇糕的方法,助你轻松解锁传说级别皮肤
谷歌为Gemini AI增添Canvas协作空间和全新音频转换功能,以提升用户交互体验