就在几小时前,OpenAI官方账号在社交媒体平台X上发布了一条“晦涩难懂”的帖子。
Another Advanced Voice update for you—it’s rolling out now on http://ChatGPT.com on desktop for all paid users.
So you can easily learn how to say the things you're doing an entire presentation on.
你能看懂OpenAI在说什么吗?其实不止是我们,连母语是英文的外国网友们也纷纷表示看不懂这条更新描述,表示“读得脑仁疼”。
经过多方查证,OpenAI这条更新指的是高级语音模式(Advanced Voice Mode),也就是平时说的实时语音,正在向ChatGPT网页端推出!也就是,以后可以在浏览器上和ChatGPT语音对话了!
来自网友的确认。
ChatGPT上的语音模式分为两种:标准语音模式(Standard voice)和高级语音模式(Advanced Voice Mode)。
其中,标准语音模式是通过传统的文本转语音模型(TTS,Text To Speech) 实现的,也就是如果你对ChatGPT说一句话,会经过语音转文本、文本处理(生成答案)、文本转语音这三个过程,技术层面看用到的模型分别是Whisper语音转文本模型、GPT-4、Text To Speech文本转语音模型。
这样的语音模式造成的效果就是延迟感很重,每一个问题ChatGPT都需要思考一段时间然后再说话,并且一旦ChatGPT开始说话,就无法停止,你必须耐着性子听完整个回答。这是由上面提到的实现方式决定的。
而高级语音模式则完全不同。高级语音模式基于GPT-4o模型的多模态能力,采用了端到端的语音处理方式,直接通过GPT-4o模型进行语音理解和生成一条龙服务。正因为此,这种语音模式下的对话更加自然流畅,基本感受不到延迟,同时端到端意味着可以随时打断ChatGPT的回复,就像是人和人之间真正的对话一样。高级语音模式的另外一个重要特点是能够理解语音语调、速度和情感变化,提供无限逼近自然对话的语音交互体验。
这也是为什么高级语音模式(Advanced Voice Mode)一经推出就备受好评的原因。而市面上其他大多数支持语音对话的AI工具还都停留在传统的文本转语音阶段。
由于受到系统、技术框架的限制,语音模式一直以来都是手机app的专属功能。就在最近,才在桌面客户端,包括Mac和Win两个版本,也上线了高级语音模式。
而本周起,我们将能够直接在ChatGPT网页端(即浏览器)使用高级语音功能,和ChatGPT对话。这对于没有或不想用桌面客户端的小伙伴还是非常友好的。
和之前的一些高级功能一样,网页端的高级语音功能也是优先向付费用户开放,包括Plus/Enterprise/Team/Edu计划的订阅用户。其中受众最广的Plus会员,费用为20美元每月。
关于高级语音模式更加详细的解释和介绍,可以看以下系列文章。
关于ChatGPT实时语音功能,你需要知道的15点总结!
重磅!ChatGPT实时语音终于要来了!附详细使用说明
结语
附上OpenAI首席产品官(CPO)Kevin Weil针对这个更新的详细介绍。
- 2024年ChatGPT手机号验证码接码平台SMS-Activate使用方法
- ChatGPT
- 保姆级教程:如何注册目前一系列最顶级AI工具【ChatGPT,Claude,runway,luma】
- ChatGPT4.0购买,ChatGPT4.0怎么用?
- ChatGPT自动通过产品评论页分析生成测评文案,AI视频工具自动生成视频,傻但是有用的赚钱方法
- 【新版】2024年ChatGPT注册国内玩法攻略
- 如何在ios系统上注册使用ChatGPT(2024年最新版)
- 如何将ChatGPT写的论文修改至无法察觉AI痕迹,一键降AIGC率!
- 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
- 华山论剑:文心一言、智谱清言、讯飞星火、通义千问、新华妙笔、 ChatGPT,公文写作哪家强?
本文链接:http://www.jxyuhui.com/post/1798.html ,转载需注明文章链接来源:http://www.jxyuhui.com/
- 喜欢(11)
- 不喜欢(3)