階躍星辰開源 SOTA 級端到端語音大模型，突破 AI 交互“低雙商”瓶頸

2025-09-01 17:12:56: 來源：中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報　作者：張偉
分享到：

9月1日，階躍星辰正式發(fā)布最強(qiáng)開源端到端語音大模型 Step-Audio 2 mini，該模型在多個國際基準(zhǔn)測試集上取得SOTA（State-of-The-Art，即當(dāng)前最佳水平）成績。在技術(shù)層面，Step-Audio 2 mini采用了真正的端到端多模態(tài)架構(gòu)，并將語音理解、音頻推理與生成統(tǒng)一建模，不僅時延更低、輸出更快，還能更加精準(zhǔn)地理解副語言信息、非人聲信號等語音要素，顯著提升了語音人機(jī)交互的效率和智能上限。目前，Step-Audio 2 mini已經(jīng)可在GitHub、Hugging Face等平臺下載并體驗。

根據(jù)測評，這款模型在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、等任務(wù)中表現(xiàn)突出，綜合性能超越Qwen-Omni、Kimi-Audio在內(nèi)的所有開源端到端語音模型，并在大部分任務(wù)上超越 GPT-4o-audio。

隨著語音交互成為人機(jī)主要交互方式，智能終端設(shè)備對語音模型的智商及情商水平提出了更高要求。Step-Audio 2 mini首創(chuàng)了音頻推理能力，能對情緒、語調(diào)、音樂等副語言和非語音信號進(jìn)行精細(xì)理解、推理并自然回應(yīng)，由此讓AI聽懂人類的“弦外之音”；同時，該模型率先支持語音原生的 Tool Calling能力，可實現(xiàn)聯(lián)網(wǎng)搜索等操作，有效解決模型幻覺問題，并讓語音模型像文本模型一樣具有更強(qiáng)大的知識儲備和推理能力。

在此之前，吉利發(fā)布了搭載階躍星辰端到端語音大模型的吉利銀河 M9，這是行業(yè)內(nèi)端到端語音大模型首次實現(xiàn)量產(chǎn)上車。據(jù)階躍星辰相關(guān)人士介紹，自去年發(fā)布國內(nèi)首個千億參數(shù)端到端語音大模型 Step-1o Audio以來，該公司持續(xù)迭代模型性能，并跟吉利、鯨魚機(jī)器人、TCL、Cyan青心意創(chuàng)等頭部終端廠商達(dá)成深度合作，讓語音大模型在生活場景中為消費者提供更加智能、便捷的互動體驗。

今年以來，階躍星辰已經(jīng)開源了 8款性能領(lǐng)先的多模態(tài)模型，覆蓋語音、視頻生成、圖像編輯、3D、多模態(tài)推理等多個類別，為全球開源社區(qū)貢獻(xiàn)多模態(tài)力量。

編輯：韓夢晨

相關(guān)閱讀：

版權(quán)與免責(zé)聲明:
①凡本站注明稿件來源為：中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權(quán)均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本網(wǎng)授權(quán)使用作品的，被授權(quán)人應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
② 任何單位或個人認(rèn)為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權(quán)益，應(yīng)該及時向本網(wǎng)站書面反饋，并提供身份證明，權(quán)屬證明及詳細(xì)侵權(quán)情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權(quán)的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權(quán)和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內(nèi)進(jìn)行。電話：010-68667266 電子郵件：dbrmt#chih.org　(請將“#”換為“@”)

曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女