小米開(kāi)源首個(gè)原生端到端語(yǔ)音大模型
據(jù)Xiaomi MiMo微信公眾號(hào)消息,小米9月19日,開(kāi)源小米正式開(kāi)源首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio,原生音它基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)和上億小時(shí)訓(xùn)練數(shù)據(jù),端到端語(yǔ)首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)基于ICL的模型少樣本泛化,并在預(yù)訓(xùn)練觀察到明顯的小米“涌現(xiàn)”行為。
據(jù)介紹,開(kāi)源在通用語(yǔ)音理解及對(duì)話(huà)等多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)中,原生音MiMo-Audio大幅超越了同參數(shù)量的端到端語(yǔ)開(kāi)源模型,取得7B最佳性能;在音頻理解基準(zhǔn)MMAU的模型標(biāo)準(zhǔn)測(cè)試集上,MiMo-Audio超過(guò)Google閉源語(yǔ)音模型Gemini-2.5-Flash;在面向音頻復(fù)雜推理的小米基準(zhǔn)Big Bench Audio S2T任務(wù)中,MiMo-Audio同樣超越了OpenAI閉源的開(kāi)源語(yǔ)音模型GPT-4o-Audio-Preview。
原生音本文地址:http://www.jdgwjk.net/news/95f13999765.html
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表本站立場(chǎng)。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。