原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型？華為團(tuán)隊(duì)出品的EMMA “Say No”

2025-12-10 17:01

作者：Xin He， Longhui Wei等

解讀：AI生成未來(lái)

背景與動(dòng)機(jī)

當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn)，尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力，以及谷歌GEMINI依靠原生多模架構(gòu)打了一場(chǎng)漂亮的大模型翻身仗，如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為2025年多模態(tài)大模型領(lǐng)域最為關(guān)心的課題。

盡管構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為了業(yè)界幾乎所有大模型研究者的共識(shí)，但是如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)的路線目前仍然未收斂，比如1）直接利用開源的理解或生成專家模型然后中間設(shè)計(jì)橋接器來(lái)構(gòu)建多模交互能力，典型代表工作比如UniWorldV1, Metaquery, OminiGen2等； 2）架構(gòu)統(tǒng)一并進(jìn)行端到端原生訓(xùn)練以激發(fā)多模能力，但其理解與生成任務(wù)優(yōu)化目標(biāo)不同。代表工作如字節(jié)的BAGEL，Mogao以及Deepseek的JanusFlow 3) 追求完美統(tǒng)一，優(yōu)化目標(biāo)一致，比如EMU系列和D-DiT。但無(wú)論哪種路線，圍繞大家心中最為關(guān)鍵的一個(gè)問(wèn)題就是，多模態(tài)統(tǒng)一架構(gòu)所訓(xùn)練激發(fā)的能力到底能不能超過(guò)單獨(dú)的多模態(tài)理解或者多模態(tài)生成模型，從而證明多模態(tài)統(tǒng)一架構(gòu)所具備的優(yōu)勢(shì)？華為近期發(fā)布的高效多模態(tài)統(tǒng)一架構(gòu)EMMA就給出了相關(guān)答案，是可以的！

先上結(jié)果

我們先來(lái)看結(jié)果，一句話總結(jié)：EMMA以4B MOE規(guī)模的大小在多模態(tài)理解、生成、編輯等榜單上力壓當(dāng)前各種7B大小的統(tǒng)一架構(gòu)模型，遠(yuǎn)超BAGEL

再來(lái)看看與單獨(dú)的專家模型對(duì)比。比如在多模態(tài)理解常常測(cè)評(píng)的11個(gè)榜單上，EMMA-4B模型要比Qwen3-VL-4B取得更好的結(jié)果。

同時(shí)，在圖像生成GenEval榜單上EMMA也獲得了超高的分?jǐn)?shù)。

具體方法和實(shí)驗(yàn)細(xì)節(jié)

我們來(lái)看看EMMA到底通過(guò)什么方案來(lái)取得這么好的效果呢？核心方案：

高效壓縮，平衡理解與生成Token；采用32x高效壓縮的生成編碼器，使得與理解分支一致，保證理解與生成的token平衡，這個(gè)近期Meta的統(tǒng)一架構(gòu)工作TUNA也提及到理解與生成token平衡。因此，1K分辨率的圖像理解和生成編碼器都會(huì)編碼成1024個(gè)視覺token。

Token Channel-wise拼接，降低視覺Token數(shù)；理解token 和生成token 直接通道拼接而不是token 數(shù)拼接，這樣在做信息融合的時(shí)候避免token爆炸，有利于多模交互場(chǎng)景;

采用共享及解耦網(wǎng)絡(luò)機(jī)制；在原生多模知識(shí)共享（這點(diǎn)大家可以參考對(duì)照生成需要REPA loss）的同時(shí)滿足任務(wù)特異性建模（理解語(yǔ)義建模，生成需要語(yǔ)義和高頻信息建模）

理解編碼器siglip2改成專家混合架構(gòu)mixpert，以應(yīng)對(duì)多樣的輸入圖像類型。

其整體架構(gòu)圖和訓(xùn)練細(xì)節(jié)如下。基于上述方案，EMMA在滿足高效的同時(shí)（例如編輯任務(wù)降低5倍視覺token）達(dá)到SOTA性能，相較于BAGEL7B有大幅提升。同時(shí)相較于Qwen3-VL-4B進(jìn)行了對(duì)比在11個(gè)理解榜單取得了相當(dāng)甚至更優(yōu)的結(jié)果

可視化結(jié)果

最后我們?cè)賮?lái)看一些具體的可視化結(jié)果

是不是EMMA的生成能力相當(dāng)能打？

總結(jié)

EMMA通過(guò)高效的編碼器設(shè)計(jì)融合策略和網(wǎng)絡(luò)結(jié)構(gòu)語(yǔ)義共享及高層任務(wù)解耦機(jī)制，能夠高效地完成原生多模態(tài)統(tǒng)一架構(gòu)訓(xùn)練，最終配合上高質(zhì)量的數(shù)據(jù)工程和訓(xùn)練方案EMMA能夠在多模態(tài)理解、生成及編輯等榜單上大幅超過(guò)BAGEL。相較于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展現(xiàn)出具備競(jìng)爭(zhēng)力的結(jié)果。EMMA進(jìn)一步揭示了原生多模態(tài)統(tǒng)一架構(gòu)的潛力，也證明了原生多模態(tài)統(tǒng)一架構(gòu)是能夠超越專有模型的，為后續(xù)多模態(tài)統(tǒng)一架構(gòu)研究奠定堅(jiān)實(shí)的基礎(chǔ)。

參考文獻(xiàn)

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

原文標(biāo)題 : 原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型？華為團(tuán)隊(duì)出品的EMMA “Say No”