曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女

數(shù)字報(bào)
小程序
公眾號(hào)
智源多模態(tài)大模型Emu3首登《自然》
2026-02-02 15:52:01
來源:科技日?qǐng)?bào)  作者: 華凌

1月28日,北京智源研究院主導(dǎo)的多模態(tài)大模型成果“Emu3”正式上線國際頂級(jí)學(xué)術(shù)期刊《自然》正刊(紙質(zhì)版預(yù)計(jì)將于2月12日刊發(fā)),這是我國科研機(jī)構(gòu)主導(dǎo)的大模型成果首次登陸該期刊,標(biāo)志著我國在人工智能原始創(chuàng)新領(lǐng)域取得重大突破。

此前,語言大模型依托“預(yù)測下一個(gè)詞元(NTP)”的自回歸路線實(shí)現(xiàn)重大突破,但多模態(tài)模型仍依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專用路線,自回歸能否成為多模態(tài)通用路線一直是行業(yè)未解之謎。智源團(tuán)隊(duì)提出的Emu3模型,將文本、圖像、視頻統(tǒng)一離散化到同一表示空間,基于單一Transformer架構(gòu)從零開始聯(lián)合訓(xùn)練,僅憑“預(yù)測下一個(gè)詞元”就實(shí)現(xiàn)了多模態(tài)生成與感知的統(tǒng)一。

實(shí)驗(yàn)顯示,Emu3在文生圖任務(wù)中性能比肩擴(kuò)散模型,視覺語言理解能力媲美CLIP與大語言模型融合方案,還能以純自回歸方式生成高保真視頻,支持視頻延展、圖文交錯(cuò)生成及機(jī)器人操作建模等多元任務(wù)?!蹲匀弧肪庉孅c(diǎn)評(píng)稱,該成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

值得關(guān)注的是,該團(tuán)隊(duì)通過大規(guī)模消融實(shí)驗(yàn)驗(yàn)證了多模態(tài)學(xué)習(xí)的規(guī)模定律,證實(shí)直接偏好優(yōu)化(DPO)可無縫適配自回歸視覺生成。后續(xù)迭代的Emu3.5更實(shí)現(xiàn)“預(yù)測下一個(gè)狀態(tài)”的能力躍遷,展現(xiàn)出泛化世界建模能力。

作為“悟界”大模型系列核心成果,Emu3的突破確立了自回歸路線在生成式AI中的統(tǒng)一地位。智源研究院自2020年啟動(dòng)“悟道”大模型研究以來,持續(xù)深耕原始創(chuàng)新,此次成果進(jìn)一步彰顯了我國在人工智能基礎(chǔ)研究領(lǐng)域的國際競爭力。

(受訪者供圖)

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2026 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號(hào)-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號(hào)主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司