OpenAI發(fā)布語(yǔ)音模型GPT-realtim:具備情感感知能力 多語(yǔ)言無(wú)縫切換
- 來(lái)源:快科技
- 作者:鹿角
- 編輯:一只小編輯OVO
OpenAI正式發(fā)布語(yǔ)音模型GPT-realtime。
據(jù)介紹,GPT-realtime是一款專(zhuān)注于語(yǔ)音AI Agent的多模態(tài)模型,能夠生成高度自然流暢的語(yǔ)音,精準(zhǔn)還原人類(lèi)語(yǔ)調(diào)、情感和語(yǔ)速的豐富變化。該模型支持圖像理解,并可結(jié)合語(yǔ)音或文本對(duì)話使用,非常適合應(yīng)用于客服、教育、金融、醫(yī)療等領(lǐng)域,用于構(gòu)建高質(zhì)量的語(yǔ)音智能體。
官方表示,新模型在復(fù)雜指令遵循、工具精確調(diào)用以及生成更自然、更具表現(xiàn)力的語(yǔ)音方面表現(xiàn)卓越。尤其在重復(fù)字母與數(shù)字、逐字朗讀免責(zé)聲明、語(yǔ)句間無(wú)縫切換語(yǔ)言等場(chǎng)景中,GPT-realtime展現(xiàn)出優(yōu)秀的適應(yīng)能力。
該模型還具備出色的上下文理解能力,可準(zhǔn)確捕捉非語(yǔ)言線索(如笑聲),并實(shí)時(shí)調(diào)整語(yǔ)音語(yǔ)氣,實(shí)現(xiàn)諸如“帶法國(guó)口音的友好語(yǔ)調(diào)”或“語(yǔ)速較快的專(zhuān)業(yè)語(yǔ)調(diào)”等多樣化表達(dá)。
此外,GPT-realtime新增了“Cedar”和“Marin”兩種語(yǔ)音風(fēng)格,并對(duì)現(xiàn)有八種語(yǔ)音效果進(jìn)行了全面優(yōu)化。

玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論