来源:星火智游网 责编:网络 时间:2025-04-03 23:32:01
OpenAI近期在语音技术领域取得了显著进展,于3月20日正式宣布推出全新的语音转文本及文本转语音模型,这一举措旨在增强语音处理能力,并为开发者提供更加精确和可定制化的语音交互系统解决方案,进一步推动人工智能语音技术的商业化落地。
在语音转文本方面,OpenAI推出了两款重量级模型:gpt-4o-transcribe和gpt-4o-mini-transcribe。据官方介绍,这两款模型在单词错误率、语言识别准确性和性能方面,均超越了现有的Whisper系列模型。它们能够支持超过100种语言的识别,通过强化学习和多样化的高质量音频数据集进行训练,有效捕捉语音中的细微特征,显著减少了误识别率。特别是在嘈杂环境、口音差异以及不同语速下,这两款模型表现出了更加稳定和出色的性能。
对于文本转语音领域,OpenAI推出了gpt-4o-mini-tts模型。这款模型允许开发者通过指令控制语音风格,如“模拟耐心客服”或“生动故事叙述”,从而满足多样化的应用场景需求。在客服领域,gpt-4o-mini-tts能够合成更具同理心的语音,提升用户体验;在创意内容方面,它则能够为有声书或游戏角色设计个性化声音,带来更加丰富和生动的听觉体验。
OpenAI在发布的博文中还详细公布了这三款模型的费用情况。gpt-4o-transcribe模型对于音频输入、文本输入和输出的费用分别为每100万tokens 6美元、2.5美元和10美元,每分钟成本为0.6美分。相比之下,gpt-4o-mini-transcribe模型则更加经济实惠,音频输入、文本输入和输出的费用分别为每100万tokens 3美元、1.25美元和5美元,每分钟成本为0.3美分。而gpt-4o-mini-tts模型的费用则为每100万tokens输入0.6美元,输出12美元,每分钟成本为1.5美分。
此次OpenAI推出的全新语音转文本和文本转语音模型,不仅提升了语音技术的性能和准确性,还为开发者提供了更加灵活和多样化的应用方案。随着人工智能技术的不断发展,这些模型有望在更多领域得到广泛应用,推动人工智能语音技术的进一步普及和商业化。
在当今这个信息爆炸的时代,网上的娱乐内容琳琅满目,其中漫画作为一种轻松、幽默的艺术形式,受到了众多年轻人的喜爱。尤其是歪歪㊙️羞羞
日产不断在汽车技术的创新上探索,2023年的无人区一线、二线和三线标志着无人驾驶技术的新阶段。在全球倡导绿色出行和智能交通的大背景下,
现代生活节奏的加快,让很多人不得不忍受肩颈疼痛的困扰。久坐的办公室、缠绕不休的手机,都成了导致这类疼痛的罪魁祸首。肩颈疼痛不仅影响
在网络影视不断发展的今天,越来越多的观众希望能够享受便捷而又高质量的观看体验。jinricp第一季以其新颖的剧情和精良的制作吸引了大量影
OpenAI全新语音模型问世,为AI语音互动带来更精准自然的体验
菠萝蜜在线观看免费播放电视剧:沉浸式游戏体验带你领略不一样的游戏世界
铁威马2025经销商大会:共同描绘未来存储愿景,携手挑战与超越新局面!
剑侠情缘手游凌绝峰杨熙烈攻略大全:通关技巧详解与战斗策略分享
航海王热血航线贝拉密技能加点指南:实战推荐与攻略分享
以牧羊人之心探索龙纹勋章获取攻略:一步步成就荣耀勋章的秘诀
剑侠世界手游武当门派技能全面解析:深度探讨其技能特点与实战应用
华为云在MWC2025推出全新专业服务,携手全球客户开启AI与数字化转型新篇章
美版iPad 11或将搭载美国制造的A16芯片,台积电亚利桑那厂面临新挑战
《龙族幻想:青铜五星挑战的突破之路》