OpenAI推出全新语音转录模型gpt-4o-transcribe,语音转文字精准度大幅提升引发关注

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe

QQ_1742519104437.png

目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。同时,OpenAI也提供了一个名为OpenAI.fm的演示网站,供个人用户进行初步体验。

QQ_1742518825138.png

核心功能大揭秘

那么,这款备受期待的 gpt-4o-transcribe 究竟有何独到之处呢?简单来说,它可以看作是OpenAI两年前发布的开源语音转录模型Whisper的升级版,目标是提供更低的文字错误率更强大的性能

QQ_1742519122970.png

根据OpenAI官方数据显示,在行业标准的33种语言测试中,gpt-4o-transcribe的错误率相较于Whisper有了显著下降,尤其在英语方面,错误率更是低至2.46%!这对于需要高精度语音转录的场景来说,无疑是一个巨大的进步。

更值得一提的是,这款新模型在各种复杂环境下都能保持出色的性能。无论是身处嘈杂的环境,面对不同的口音,还是处理快慢不一的语速,gpt-4o-transcribe都能提供更准确的转录结果,并且它还支持超过100种语言

为了进一步提升转录的准确性,gpt-4o-transcribe还加入了噪声消除语义语音活动检测技术。

OpenAI的技术人员Jeff Harris解释说,后者可以帮助模型判断说话者是否讲完了一个完整的想法,从而避免断句错误,提高整体的转录质量。此外,gpt-4o-transcribe还支持流式语音转文本,开发者可以持续输入音频并实时获得文本结果,使对话感觉更加自然。

需要注意的是,gpt-4o-transcribe模型家族**目前并不具备“说话人分离”(diarization)**的功能,也就是说,它主要专注于将接收到的音频(可能包含多人的声音)统一转录成文本,而不会区分和标记不同的说话人。

虽然这在某些需要区分发言人的场合可能有所限制,但其在提高整体转录准确性方面的优势依然显著。

开发者先行:API接口已开放

目前,gpt-4o-transcribe已经通过OpenAI的API接口提供给开发者使用。这意味着,开发者可以快速将这一强大的语音转录能力集成到自己的应用程序中,为用户带来更便捷的语音交互体验。

据OpenAI在直播中演示,对于已经基于GPT-4o等文本大模型构建的应用,只需要大约九行代码 就能轻松添加语音交互功能。例如,电商应用可以快速实现语音回复用户关于订单信息的咨询。

不过,OpenAI方面也表示,考虑到ChatGPT在成本和性能方面的特殊需求,这些新模型暂时不会直接应用于ChatGPT,但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者,OpenAI推荐使用其Realtime API中的语音到语音模型。

凭借其强大的语音转录能力,gpt-4o-transcribe有望在多个领域大显身手。OpenAI认为,例如客户呼叫中心会议纪要自动生成以及AI驱动的智能助手等场景都非常适合应用这项技术。一些已经体验过新模型的公司也反馈称,OpenAI的音频模型显著提升了语音AI的性能。

当然,OpenAI也面临着来自其他语音AI公司的竞争,例如ElevenLabs推出的Scribe模型也具备较低的错误率和说话人分离功能。此外,Hume AI的Octave TTS模型则在发音和情感控制方面提供了更精细的自定义选项。开源社区也有不断涌现的先进语音模型。

根据您提供的源,以下是 OpenAI 新语音模型的定价信息以及一些相关的竞品价格:

模型API定价:

  • gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00,约合每分钟 $0.006
  • gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00,约合每分钟 $0.003
  • gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,约合每分钟 $0.015

竞品模型定价:

  • ElevenLabs Scribe: 每小时音频输入的定价为 $0.40,约合每分钟 $0.006
  • Orpheus3B: 基于 Apache2.0许可开源,开发者可以免费使用,但需要自备相应的硬件或云服务器。

需要注意的是,不同模型的计费方式可能存在差异(例如,基于 token 数量、时长等),因此直接比较价格时需要考虑这些因素。

OpenAI此次发布的gpt-4o-transcribe等新语音模型,在语音转录领域展现出了强大的实力和潜力。虽然目前主要面向开发者,但其在提升语音交互体验方面的价值不容忽视。未来,随着技术的不断发展,我们或许能看到更多令人惊喜的语音AI应用涌现。

网站:https://top.aibase.com/tool/openai-fm

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

猜你喜欢

江湖中乔装的效果究竟如何?探讨其在江湖交往中的重要性和影响
江湖中乔装的效果究竟如何?探讨其在江湖交往中的重要性和影响

在武侠小说的浩瀚世界里,“江湖”二字总能勾起人们无尽的遐想与向往。它是一个充满奇遇、恩怨、爱恨交织的广阔舞台,而在这片舞

田蕴章:中国书法的独特魅力为何不容受到欧洲人质疑?坚决拒绝领取欧洲书法奖的背后原因!
田蕴章:中国书法的独特魅力为何不容受到欧洲人质疑?坚决拒绝领取欧洲书法奖的背后原因!

在浩瀚的艺术长河中,中国书法以其独特的韵味和悠久的历史,成为了中华文明中一颗璀璨的明珠。在这片书法艺术的沃土上,孕育出无

男朋友身材超棒-难道我还是需要依赖消炎药来保持健康吗
男朋友身材超棒-难道我还是需要依赖消炎药来保持健康吗

很多人可能觉得,男朋友的体型如果非常强壮,似乎和一些健康问题无关。但实际上,若出现了一些身体不适,比如需要吃消炎药,这就

如何在江湖中有效抵御守阁老人?重剑搭配逆转阵容的实用建议与推荐
如何在江湖中有效抵御守阁老人?重剑搭配逆转阵容的实用建议与推荐

江湖之中,流传着无数的传说与故事,而其中最为人津津乐道的,莫过于那把重剑以及那位神秘的守阁老人。这把重剑不仅象征着力量与

零基础硬笔书法学习指南:从基础笔画开始,一步一步筑牢书写功底,全方位掌握技巧
零基础硬笔书法学习指南:从基础笔画开始,一步一步筑牢书写功底,全方位掌握技巧

近日,一份详尽的硬笔书法基础笔画指南在网络上广泛流传,为书法爱好者们提供了宝贵的学习资源。例如,在短横的书写上,指南指出

国产连续剧免费观看平台:随时随地享受高质量剧情,流畅的观看体验让人过目不忘!
国产连续剧免费观看平台:随时随地享受高质量剧情,流畅的观看体验让人过目不忘!

随着“国产在线观看免费全集电视剧网站”成为观众的首选平台,越来越多的剧迷开始热衷于在各类视频站点上追剧。在这个信息爆炸的

魔兽世界11.1版本奶骑的天赋加点合理配置与推荐
魔兽世界11.1版本奶骑的天赋加点合理配置与推荐

在魔兽世界的11 1版本中,奶骑(圣骑士)在大米(团队副本)中的表现非常依赖于天赋的选择。正确地搭配天赋可以极大地提升治

跑跑卡丁车夏日公主黑妞玩家必看!全新0元领取攻略终于揭晓!
跑跑卡丁车夏日公主黑妞玩家必看!全新0元领取攻略终于揭晓!

想要在跑跑卡丁车里化身夏日街头最靓的崽?全新限定皮肤“夏日公主·黑妞”凭借清凉造型和炫酷特效,上线后立刻引爆全服!但许多

李可染的《五牛图》:透过质朴之气,展现水牛憨厚性格的独特魅力!
李可染的《五牛图》:透过质朴之气,展现水牛憨厚性格的独特魅力!

在艺术界,一幅画作往往能跨越时空,传递创作者的情感与哲思。近日,一幅李可染的《五牛图》引起了广泛关注,此作不仅展现了艺术

童雁汝南个展“相互映照”:揭示肖像隐藏的深层意义,探讨他者与自我交织的哲学之路
童雁汝南个展“相互映照”:揭示肖像隐藏的深层意义,探讨他者与自我交织的哲学之路

在当代唐人艺术中心北京798第二空间,一场引人瞩目的艺术展览“童雁汝南:面对面”如期拉开帷幕,由前意大利罗马国家现代和当