来源:星火智游网 责编:网络 时间:2025-04-26 04:49:30
一位12年级学生建立了一个创新平台,让人们能够评估不同AI模型在Minecraft创作中的表现,为人工智能评测领域带来了新的视角。
随着传统AI基准测试方法的局限性日益明显,开发者们开始寻找更具创造性的评估途径。对一群开发者而言,微软旗下的沙盒建造游戏Minecraft成为了理想选择。
高中生Adi Singh与团队合作开发的Minecraft Benchmark(简称MC-Bench)网站允许AI模型在面对面的挑战中相互竞争,通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的模型,投票后才能看到每个作品背后的AI制作者。
Singh表示,选择Minecraft作为测试平台是因为其广泛的知名度——作为有史以来最畅销的电子游戏,即使对从未玩过的人来说,也能直观判断哪个块状菠萝更胜一筹。
"Minecraft让人们更容易看到AI开发的进展,"Singh告诉TechCrunch。"人们已经习惯了Minecraft,习惯了它的外观和氛围。"
MC-Bench目前有8名志愿者参与。根据网站信息,Anthropic、Google、OpenAI和阿里巴巴已为该项目提供补贴,允许使用它们的产品运行基准测试,但这些公司与项目没有其他关联。
Singh分享了项目的未来愿景:"目前,我们只是进行简单的构建,反思我们与GPT-3时代相比取得的进步,但我们计划扩展到长期规划和目标导向任务。游戏可能只是测试代理推理的媒介,它比现实生活更安全,在测试方面更易于控制,在我看来这更理想。"
除Minecraft外,《精灵宝可梦红》、《街头霸王》和《你画我猜》等游戏也被用作AI实验基准,部分原因是AI基准测试本身极具挑战性。
研究人员通常在标准化评估中测试AI模型,但这些测试往往让AI拥有主场优势。由于训练方式的特点,模型天生擅长某些类型的问题,尤其是涉及记忆或基本推理的任务。
这种矛盾体现在多个案例中:OpenAI的GPT-4能在LSAT考试中取得88%的成绩,却无法准确数出"strawberry"一词中有多少个"R";Anthropic的Claude3.7Sonnet在标准化软件工程基准测试中准确率达62.3%,但在玩Pokémon游戏方面却不如大多数五岁儿童。
从技术角度看,MC-Bench是一个编程基准,要求模型编写代码来创建指定的构建,如"雪人弗罗斯蒂"或"原始沙滩上迷人的热带海滩小屋"。但对大多数用户而言,评估雪人外观比深入分析代码更直观,这使得该项目具有更广泛的吸引力,有望收集更多关于模型表现的数据。
虽然这些分数对AI实用性的影响仍有待商榷,但Singh坚信这是一个有力信号:"目前的排行榜与我自己使用这些模型的经验非常接近,这与许多纯文本基准测试不同。也许MC-Bench可以帮助公司了解他们是否朝着正确的方向前进。"
自来也和纲手拔萝卜配音声音以其独特之韵味,令众人潜心于二者之互动。二者之声,乃是共鸣之道,情感之流,使人宛如置身于其境。二人虽在不
在当今这个信息爆炸的时代,网上的娱乐内容琳琅满目,其中漫画作为一种轻松、幽默的艺术形式,受到了众多年轻人的喜爱。尤其是歪歪㊙️羞羞
秋蝉漫画入口页面弹窗下拉式者,乃近来网络之新兴形式,旨在为众多漫画爱好者提供更加便捷之浏览体验。此一设计,非但省却繁杂之操作,且以
:题目要求我们以“xgua99 tv 黑料社区”为主题,写一篇文章。文章,能够,、、。对“xgua99 tv 黑料社区”进行简单介绍,强调其汇集了各
Minecraft创新AI竞技场:高中生开发独特模型评估平台以提升游戏体验
全面解读洛克王国帮帮精灵的特点与技能,让你更好地掌握这位精灵的使用技巧
李开复预言:中国大模型市场未来或将仅剩DeepSeek、阿里巴巴和字节跳动三大科技巨头主导
7777777亚洲和欧洲尺码表:探索适合游戏玩家的理想装备选择
长沙市发布“超智融合”基础教育大模型以推动智能教学新模式的创新发展
奥比岛账号安全与防护措施:如何避免账号被盗以及保护个人信息的合法途径
上海浦东聚焦人形机器人与大型模型技术,致力于建设创新型产业园区
赛力斯宣布成立新技术公司,涵盖人工智能与机器人相关业务领域,推动未来科技发展
AI日报:OpenAI推出史上最昂贵的o1-pro API;腾讯全新混元推理模型T1即将发布;阶跃星辰开源Step-Video-TI2V视频生成模型
奥拉星帝皇圣龙攻略详解 如何有效击败奥拉星帝皇圣龙获取胜利