北京出名做网站的公司,网站建设奖项,宁波小程序开发,wordpress开户多站点北京时间5月14日凌晨#xff0c;有人说OpenAI一夜改变了历史。
在我们的深夜、太平洋时间的上午 10 点#xff0c;OpenAI 召开春季发布会#xff0c;公布了最新的GPT-4o模型#xff0c;o代表Omnimodel#xff08;全能模型#xff09;。20多分钟的演示直播#xff0c;展… 北京时间5月14日凌晨有人说OpenAI一夜改变了历史。
在我们的深夜、太平洋时间的上午 10 点OpenAI 召开春季发布会公布了最新的GPT-4o模型o代表Omnimodel全能模型。20多分钟的演示直播展示了远超当前所有语音助手的AI交互体验与外媒此前透露的消息基本重合。 GPT-4o 不仅在文本处理方面表现出色还在图像和音频处理能力上实现了显著增强标志着人机交互进入了一个更为自然和便捷的新时代。
实时语音功能
本次展示聚焦于 ChatGPT 应用的实时对话语音功能通过现场演示展示了用户与 AI 之间流畅无阻的交互体验。
通过手机上的应用程序激活了 GPT-4o 的音频功能与 AI 进行了实时对话并体验了其即时响应与情绪感知能力。
它的表现仿佛一个人正坐在旁边和人类的对话节奏自然、融洽完全听不出是个AI。 其实多模态语音功能OpenAI在之前已经可以实现具体形式如下
1. 语音识别音频转文本通过调用Whisper模型
2. 模型处理得到回复通过调用文本模型;
3. 语音合成文本转音频调用tts模型。 但这个过程会存在延迟导致无法“沉浸式”体验与AI的对话。
而GPT-4o在响应速度方面完美解决了延迟问题。GPT-4o的响应音频速度几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒GPT-4)。
另外新语音功能的主要区别还包括用户现在可以直接打断模型无需等待模型完成发言即可插话大大提高了对话的自然流畅度。
此外新模型消除了延迟现象反应迅速不再有尴尬的等待时间。更重要的是它能够感知用户的情绪状态根据用户的语气和节奏调整交流方式展现出更人性化的交互体验。
除了以上升级外GPT-4o还在GPT-4的基础上做了很多升级包括 极佳的多模态交互能力包括语音、视频以及屏幕共享。 可以实时识别和理解人类的表情文字以及数学公式。 交互语音感情丰富可以变换语音语调、风格还可以模仿甚至“即兴”唱歌。 超低延时且可以在对话中实时打断AI增加信息或开启新话题。 所有ChatGPT用户均可免费使用有使用上限。 速度是GPT-4 Turbo的2倍API成本低50%速率限制高5倍。
视频互动解方程
另一个环节中OpenAI另一位研发负责人手写了一个方程并打开摄像头拍给ChatGPT让它扮演「在线导师」的角色帮助自己解题而且只能给提示不能直接说答案。 接到任务的ChatGPT甚至开心大叫「Oops我好兴奋啊」
负责人在纸上写下这样一个方程3x14。然后问ChatGPT自己写的是什么方程ChatGPT语调自然地回答出来了。
随后在负责人的要求下它按步骤一步一步说出了解题步骤。
最让人震惊的是随着负责人在摄像头中解题ChatGPT实时地就给出了鼓励和引导。
而且可怕的是时间上没有丝毫延迟这边负责人还在计算ChatGPT就实时给出了评价和反馈。
整个过程完全和真人交流无异
这个发布会还有很多很精彩的交流过程在这里就不再详述有兴趣的伙伴可以自己去观看了解~
总的来说新发布的GPT-4o不仅提供与GPT-4同等程度的模型能力推理速度更快还提供同时理解文本、图像、音频等内容的多模态能力。
可以说GPT-4o最大特色是它可以将文本、音频、图像任何组合作为多模态输入和输出并且更快更智能
沃卡AI已及时更新支持最新的GPT-4o模型体验方法如下
方式一
打开网页www.woka.chat选择模型“gpt-4o-2024-05-13”即可 方式二
通过api调用形式体验打开https://4.0.wokaai.com注册生成令牌key调用即可 沃卡API特点
● 透明纯官方计价支持查询用量明细余额实时掌握。
● 稳定庞大账号池作为支撑并定期优化扩容一个key即可稳定快速调用所有模型
● 方便所有用到 OpenAI API 的地方都可以无缝替代
● 快速持续优化中转服务的线路速度保证使用体验不需像调用官方一样特地申请多个账号扩充限制
● 省心没有包月没有会员没有限时用多少买多少永不过期。