视频生成AI开启视觉推理新篇：以动态画面展现“思考”超文字优势

来源：星火智游网责编：网络时间：2026-02-13 15:40:02

当人们试图向朋友解释如何走出迷宫时，通常会选择用语言描述路径，比如“先右转，再直走，接着左转”。但若换成绘制路线图或拍摄演示视频，信息传达的清晰度与准确性或许会大幅提升。这一日常经验背后，隐藏着人工智能领域的关键挑战——如何让机器像人类一样高效处理视觉信息。近日，剑桥大学与哥本哈根大学人工智能中心联合团队在预印本平台发布研究，通过实验证明视频生成模型在复杂视觉推理任务中表现优于传统文字模型，为人工智能认知方式提供了新思路。

研究团队首先聚焦大型语言模型的局限性。尽管这类模型在文本处理领域表现卓越，但面对需要精确空间判断的任务时，常出现模糊甚至错误输出。例如，当要求描述几何图形的旋转角度与摆放位置时，模型可能给出“将三角形顺时针转一定角度”这类含糊指令，而非精确参数。这种缺陷类似于仅用语言指导他人完成精细手工操作——缺乏直观参照时，误差难以避免。

为验证猜想，团队设计了两个对比实验。在“迷宫导航”任务中，虚拟角色需在3×3至8×8规格的迷宫中寻找最短路径，同时避开障碍物。实验特别引入训练时未出现的角色图标与迷宫结构，以测试模型适应性。结果显示，视频生成模型不仅能快速规划路径，面对陌生环境时仍能保持高准确率，如同人类凭借导航逻辑而非记忆完成陌生区域探索。

“七巧板拼图”实验则进一步考验空间推理能力。任务分为三个难度等级：初级“渐现模式”逐步显示图形位置；中级“旋转模式”要求先调整角度再移动；高级“平移模式”需在固定方向下精确计算位置。实验表明，文字模型在描述“将红色梯形逆时针转30度后右移1.5单位”时易产生歧义，而视频模型通过动态演示完整拼装过程，确保图形几何特征始终完整。

研究还发现两个关键现象。其一，视觉参照显著提升模型表现。当模型能观察迷宫角色外观或七巧板颜色形状时，推理错误率降低40%，这类似于人类对照图样完成手工制作。其二，延长“思考时间”可增强复杂问题解决能力。通过生成更多视频帧，模型能逐步优化路径选择，甚至在初始错误时自我修正——这种试错行为与人类解题过程高度相似。

尽管成绩斐然，视频模型仍面临技术瓶颈。在处理大幅图形变换时，模型偶尔会扭曲几何形状，例如将正方形拉伸为菱形。当从规则网格迷宫迁移至不规则环境时，模型虽能掌握对角线移动等新技能，但训练成本与计算耗时较文字模型高出3倍，限制了其即时应用潜力。

该研究对人机交互模式产生深远影响。在机器人领域，视觉推理能力可帮助设备更精准操作物理对象；教育软件中，动态演示能替代冗长文字说明，提升复杂概念理解效率；游戏行业则可利用此技术设计更智能的非玩家角色行为。研究团队指出，当前技术仍需突破视觉稳定性与计算效率难题，但其验证的“视觉优先”认知路径，为开发更接近人类思维的AI系统提供了重要范式。

A：通过生成连续图像帧构建推理链条。每帧代表一个决策步骤，完整视频序列即解决方案的动态呈现。例如在迷宫任务中，帧间变化直接展示角色移动轨迹，避免文字描述的模糊性。A：文字在表达空间关系时存在天然缺陷。如描述“物体A在物体B左上方”，不同读者可能产生不同空间想象；而视频通过绝对坐标与动态轨迹消除歧义，其信息密度与准确性更接近人类视觉认知。A：未来AI助手可能采用“视觉解释”模式。当用户询问设备维修步骤时，系统将播放3D动画分解操作流程；学习数学几何时，动态图形演示辅助理解定理应用场景，显著降低认知门槛。

2025“抽象梗”爆火：青年文化新表达，映射时代何种回响？

返回列表

猜你喜欢