訂閱
糾錯(cuò)
加入自媒體

原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”

作者:Xin He, Longhui Wei等

解讀:AI生成未來(lái)

背景與動(dòng)機(jī)

當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn),尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力,以及谷歌GEMINI依靠原生多模架構(gòu)打了一場(chǎng)漂亮的大模型翻身仗,如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為2025年多模態(tài)大模型領(lǐng)域最為關(guān)心的課題。

盡管構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為了業(yè)界幾乎所有大模型研究者的共識(shí),但是如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)的路線目前仍然未收斂,比如1)直接利用開源的理解或生成專家模型然后中間設(shè)計(jì)橋接器來(lái)構(gòu)建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架構(gòu)統(tǒng)一并進(jìn)行端到端原生訓(xùn)練以激發(fā)多模能力,但其理解與生成任務(wù)優(yōu)化目標(biāo)不同。代表工作如字節(jié)的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美統(tǒng)一,優(yōu)化目標(biāo)一致,比如EMU系列和D-DiT。但無(wú)論哪種路線,圍繞大家心中最為關(guān)鍵的一個(gè)問(wèn)題就是,多模態(tài)統(tǒng)一架構(gòu)所訓(xùn)練激發(fā)的能力到底能不能超過(guò)單獨(dú)的多模態(tài)理解或者多模態(tài)生成模型,從而證明多模態(tài)統(tǒng)一架構(gòu)所具備的優(yōu)勢(shì)?華為近期發(fā)布的高效多模態(tài)統(tǒng)一架構(gòu)EMMA就給出了相關(guān)答案,是可以的!

先上結(jié)果

我們先來(lái)看結(jié)果,一句話總結(jié):EMMA以4B MOE規(guī)模的大小在多模態(tài)理解、生成、編輯等榜單上力壓當(dāng)前各種7B大小的統(tǒng)一架構(gòu)模型,遠(yuǎn)超BAGEL

再來(lái)看看與單獨(dú)的專家模型對(duì)比。比如在多模態(tài)理解常常測(cè)評(píng)的11個(gè)榜單上,EMMA-4B模型要比Qwen3-VL-4B取得更好的結(jié)果。

同時(shí),在圖像生成GenEval榜單上EMMA也獲得了超高的分?jǐn)?shù)。

具體方法和實(shí)驗(yàn)細(xì)節(jié)

我們來(lái)看看EMMA到底通過(guò)什么方案來(lái)取得這么好的效果呢? 核心方案:

高效壓縮,平衡理解與生成Token;采用32x高效壓縮的生成編碼器,使得與理解分支一致,保證理解與生成的token平衡,這個(gè)近期Meta的統(tǒng)一架構(gòu)工作TUNA也提及到理解與生成token平衡。因此,1K分辨率的圖像理解和生成編碼器都會(huì)編碼成1024個(gè)視覺token。

Token Channel-wise拼接,降低視覺Token數(shù);理解token 和生成token 直接通道拼接而不是token 數(shù)拼接,這樣在做信息融合的時(shí)候避免token爆炸,有利于多模交互場(chǎng)景;

采用共享及解耦網(wǎng)絡(luò)機(jī)制;在原生多模知識(shí)共享(這點(diǎn)大家可以參考對(duì)照生成需要REPA loss)的同時(shí)滿足任務(wù)特異性建模(理解語(yǔ)義建模,生成需要語(yǔ)義和高頻信息建模)

理解編碼器siglip2改成專家混合架構(gòu)mixpert,以應(yīng)對(duì)多樣的輸入圖像類型。

其整體架構(gòu)圖和訓(xùn)練細(xì)節(jié)如下。 基于上述方案,EMMA在滿足高效的同時(shí)(例如編輯任務(wù)降低5倍視覺token)達(dá)到SOTA性能,相較于BAGEL7B有大幅提升。同時(shí)相較于Qwen3-VL-4B進(jìn)行了對(duì)比在11個(gè)理解榜單取得了相當(dāng)甚至更優(yōu)的結(jié)果

可視化結(jié)果

最后我們?cè)賮?lái)看一些具體的可視化結(jié)果

是不是EMMA的生成能力相當(dāng)能打?

總結(jié)

EMMA通過(guò)高效的編碼器設(shè)計(jì)融合策略和網(wǎng)絡(luò)結(jié)構(gòu)語(yǔ)義共享及高層任務(wù)解耦機(jī)制,能夠高效地完成原生多模態(tài)統(tǒng)一架構(gòu)訓(xùn)練,最終配合上高質(zhì)量的數(shù)據(jù)工程和訓(xùn)練方案EMMA能夠在多模態(tài)理解、生成及編輯等榜單上大幅超過(guò)BAGEL。相較于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展現(xiàn)出具備競(jìng)爭(zhēng)力的結(jié)果。EMMA進(jìn)一步揭示了原生多模態(tài)統(tǒng)一架構(gòu)的潛力,也證明了原生多模態(tài)統(tǒng)一架構(gòu)是能夠超越專有模型的,為后續(xù)多模態(tài)統(tǒng)一架構(gòu)研究奠定堅(jiān)實(shí)的基礎(chǔ)。

參考文獻(xiàn)

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

       原文標(biāo)題 : 原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)