自学内容网 自学内容网

Her来了,OpenAI正式发布高级语音模式

OpenAI宣布将Advanced Voice Mode(AVM)扩展到更多付费用户,包括ChatGPT的Plus和Teams用户。该功能旨在使ChatGPT的语音交互更加自然,并新增五种新声音和改进的口音识别能力。

虽然Sky声音因法律争议被移除,但AVM的整体设计和性能得到了提升。新版本不仅能在用户打断时立即停止回答,还能根据用户语音中的情感调整响应。此外,视频和屏幕共享功能暂未推出。AVM目前尚未在欧盟、英国等地区上线。

——

shadow:更期待高级语音模式的视频功能。我们划个重点:

高级语音模式

5f9a4361b63b27ca8844bf9c20369d3f.png

开源的语音模型

LLM的语音模式,开源方面,也陆续有类似的项目发布:

LLaMA-Omni 是基于 Llama-3.1-8B-Instruct 构建的语音语言模型,支持低延迟和高质量的语音交互,能够同时根据语音指令生成文本和语音响应。该模型在不到三天内使用4个GPU完成训练,具有高效的语音处理能力。用户可以通过下载所需模型和依赖项,快速启动本地或Gradio网页服务器进行交互。


3c29e26a6b46a61091ce8a75164bd6c5.jpeg


体验地址:

https://github.com/ictnlp/LLaMA-Omni

AI生成的故事 ↓

7d5a47e8ddfca7469d1acaee22c5069b.png

从前,有一个神奇的森林,里面住着各种智能生物。一天,森林里来了四位新居民:语音助手、LLM、开源和AVM。它们决定联合起来,帮助森林里的动物们解决各种问题。

语音助手像是一个有魔法的鹦鹉,只要你说话,它就能帮你找到答案。LLM则是一只聪明的狐狸,拥有无尽的智慧,能解答各种复杂问题。开源是一只慷慨的蜜蜂,把知识的花蜜分享给大家。而AVM是一只善变的变色龙,能模仿不同的声音和口音,让沟通更加顺畅。

有一天,一只小兔子迷路了,四位朋友联手帮助它。语音助手迅速定位了方向,LLM提供了详细的路线,开源分享了地图,AVM用小兔子妈妈的声音安抚了它。最终,小兔子安全回家,森林里的动物们都称赞这四位新居民是智慧与善良的化身。

这个故事告诉我们,合作与分享能创造奇迹,即使在数字森林里也不例外。

——

opus:欢迎加入社群

414d16b6c15b1cbb28f6d8a4254928b4.jpeg

备注:社群




原文地址:https://blog.csdn.net/shadowcz007/article/details/142537347

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!