訂閱
糾錯
加入自媒體

主題一致超越所有開源與商業(yè)模型!中科大&字節(jié)開源統(tǒng)一創(chuàng)新框架BindWeave

2025-11-11 13:50
AI生成未來
關注

作者:Zhaoyang Li等

解讀:AI生成未來

亮點直擊

BindWeave:針對現(xiàn)有視頻生成技術在主題一致性方面的瓶頸,提出了一個專為主題一致性視頻生成設計的新型框架。

引入多模態(tài)大語言模型作為深度指令解析器。 使用MLLM替代傳統(tǒng)的淺層融合機制,實現(xiàn)了深度跨模態(tài)語義關聯(lián)。

構建統(tǒng)一交織序列與隱狀態(tài)生成機制。將參考圖像與文本提示整合成統(tǒng)一序列,有效銜接高層語義解析與擴散生成過程。

多模態(tài)條件融合機制。 形成高層推理+語義身份+底層細節(jié)的協(xié)同條件機制,全面提升生成質量。

在opens2v上,通過主題一致性、時序自然度、文本-視頻對齊等全面評估;在主題一致性視頻生成任務中持續(xù)超越所有現(xiàn)有開源與商業(yè)模型,達到SOTA。

展示出廣泛的科研與商業(yè)應用潛力。

總結速覽

效果一覽

單人:

多人:

人+實體:

解決的問題

1. 核心瓶頸: 現(xiàn)有視頻生成模型難以解析和理解提示詞中復雜的空間關系、時序邏輯和多主體交互。

2 .具體缺陷: 導致生成的視頻在主題一致性上表現(xiàn)不足,即無法在視頻中穩(wěn)定、準確地保持特定主體的身份、屬性和相互關系。

提出的方案

核心框架: 提出了一個名為 BindWeave 的統(tǒng)一創(chuàng)新框架。

核心思路:多模態(tài)大語言模型(MLLM) 作為智能指令解析器,取代傳統(tǒng)的淺層融合機制,實現(xiàn)對提示詞的深度語義理解與跨模態(tài)關聯(lián)。

實現(xiàn)路徑:

構建統(tǒng)一序列: 將參考圖像和文本提示整合成交織序列輸入MLLM。

深度解析與綁定: 利用MLLM解析復雜時空關系,將文本指令錨定到具體視覺實體,并生成編碼了主體身份和交互關系的“主題感知隱狀態(tài)”。

多條件協(xié)同生成: 將上述隱狀態(tài)與參考圖像的CLIP特征(強化語義錨定)和VAE特征(保留細節(jié))共同作為條件,輸入到基于擴散Transformer(DiT) 的生成器中,指導視頻生成。

應用的技術

多模態(tài)大語言模型(MLLM): 作為核心的深度跨模態(tài)推理引擎。

擴散Transformer(DiT): 作為基礎的視頻生成骨干模型。

多源條件融合機制: 創(chuàng)新性地融合了三種條件信號:

MLLM輸出的隱狀態(tài)(提供高層推理和交互關系)。

CLIP圖像特征(提供語義層面的身份錨定)。

VAE圖像特征(提供像素級別的外觀細節(jié))。

基準數(shù)據(jù)集: 在細粒度的 OpenS2V 基準上進行評測。

達到的效果

性能卓越:OpenS2V 基準測試中,在主題一致性、時序自然度和文本-視頻對齊等關鍵指標上均取得了優(yōu)越性能。

業(yè)界領先: 全面超越了現(xiàn)有的主流開源方法和商業(yè)模型,達到了最先進的性能水平。

質量優(yōu)異: 定性結果(圖示)表明,生成的視頻樣本具有極高的保真度主題一致性。

應用潛力: 展現(xiàn)出在科研和商業(yè)視頻生成領域的巨大應用潛力。

方法

架構設計

本文提出的BindWeave旨在克服主題一致性視頻生成中淺層融合范式的局限性。該方法的核心原理是在生成過程開始前,通過深度推理理解多模態(tài)輸入來替代淺層的事后融合。為此,BindWeave首先利用多模態(tài)大語言模型作為智能指令解析器。該MLLM通過生成引導范式——具體實現(xiàn)為編碼復雜跨模態(tài)語義和時空邏輯的隱狀態(tài)序列,進而在整個合成過程中精確指導擴散Transformer。下圖2展示了BindWeave架構的示意圖。

基于MLLM的智能指令規(guī)劃

為有效促進文本提示與參考圖像間的跨模態(tài)聯(lián)合學習,本文引入了統(tǒng)一的多模態(tài)解析策略。給定文本提示和個用戶指定的主體(每個主體對應參考圖像),本文通過在每個文本提示后追加圖像占位符來構建多模態(tài)序列。隨后向MLLM提供該序列及對應的圖像列表:

其中img是MLLM內(nèi)部與第k張圖像對齊的特殊占位符標記。這種保留文本描述與其對應視覺主體間關鍵上下文聯(lián)系的統(tǒng)一表示,隨后被輸入到預訓練的MLLM中。通過處理多模態(tài)輸入,MLLM生成隱狀態(tài)序列,該序列體現(xiàn)了對場景的高層推理,有效將文本指令與其特定視覺身份進行綁定:

為使凍結MLLM與擴散模型的特征空間對齊,這些隱狀態(tài)通過可訓練的輕量級連接器進行投影,從而生成特征對齊的條件:

雖然這個由MLLM衍生的條件提供了寶貴的高層跨模態(tài)推理信息,但本文認識到擴散模型也經(jīng)過高度優(yōu)化以解析細粒度的文本語義。為提供這種互補信號,本文使用T5文本編碼器對原始提示進行獨立編碼,以生成專用的文本嵌入:

本文隨后將這兩個互補流進行拼接,形成最終的關系條件信號:

這個復合信號不僅封裝了顯式的文本指令,還包含了對主體交互和時空邏輯的深度推理,為后續(xù)生成階段奠定了堅實基礎。

集體條件化視頻擴散

在指令規(guī)劃過程中,本文將有用的語義信息整合到中。現(xiàn)在需要將作為條件注入DiT模塊以指導視頻生成。本文的生成骨干網(wǎng)絡在預訓練時空變分自編碼器的潛在空間中運行。為確保高保真度和一致的視頻生成,本文采用集體條件化機制來協(xié)同整合多路信息。如前文所述,本文的集體條件化機制同樣在兩個協(xié)同層級運行:條件化時空輸入和交叉注意力機制。

為保持參考圖像的細粒度外觀細節(jié),本文設計了自適應多參考條件化策略(如下圖3所示)。

具體而言,本文將參考圖像編碼為低級VAE特征,記為。由于主題視頻生成與圖像到視頻生成存在差異,參考圖像不被視為實際視頻幀。本文首先擴展含噪視頻潛在表示的時間軸,用零填充個額外位置:。隨后將參考圖像的VAE特征放置在這個填充的時間位置上(其余位置為零),并沿通道維度拼接相應的二值掩碼以強調主體區(qū)域。通過通道維度拼接后經(jīng)塊嵌入處理,得到DiT模塊的最終輸入:

其中和在個填充時間槽之外為零,并僅在這些槽內(nèi)攜帶參考條件。這種設計保持了原始視頻的時間完整性,同時通過通道級條件化注入了細粒度外觀和主體增強信息。

隨后,高層語義引導通過交叉注意力層注入。這涉及兩個不同的信號:來自MLLM的關系條件用于場景構圖,以及CLIP圖像特征用于主體身份。在每個DiT塊內(nèi),演化的視頻令牌生成查詢向量。條件信號和被投影形成各自的鍵值矩陣。注意力層的最終輸出是這些信息流的求和,擴展了公式4:

其中和分別通過線性投影層從和推導得出。通過以這種結構化方式整合高層關系推理、語義身份引導和底層外觀細節(jié),BindWeave有效引導擴散過程生成不僅視覺上忠實于主體,而且在邏輯和語義上與復雜用戶指令保持一致的頻。

訓練與推理

訓練設置:遵循前文所述的修正流公式,本文的模型被訓練用于預測真實速度場。BindWeave的整體訓練目標可表述為模型輸出與之間的均方誤差:

本文的訓練數(shù)據(jù)選自公開可用的500萬規(guī)模OpenS2V-5M數(shù)據(jù)集。通過一系列過濾策略,最終提煉出約100萬個高質量視頻-文本對。隨后基于該數(shù)據(jù)采用兩階段課程學習策略進行訓練。所有訓練過程均在512個xPU上開展,全局批大小為512,使用恒定學習率5e-6和AdamW優(yōu)化器。初始穩(wěn)定階段持續(xù)約1000次迭代,使用從100萬數(shù)據(jù)中精選的優(yōu)質代表性子集。該階段對于使模型適應主題到視頻任務的特定需求至關重要,主要側重于學習在保持主體視覺身份真實性的同時使其與文本運動指令對齊,為后續(xù)大規(guī)模訓練奠定堅實基礎。隨后訓練轉入全面階段并持續(xù)5000次迭代,模型在此階段接觸全部100萬精選數(shù)據(jù)。第二階段使模型能在穩(wěn)定基礎上進一步擴展,通過更廣泛的高質量樣本學習,顯著提升生成能力與泛化性能。

推理設置:在推理過程中,本文的BindWeave可接受靈活數(shù)量的參考圖像(通常為1-4張),同時通過文本提示描述目標場景與行為來引導生成。與Phantom方法類似,本文在推理時使用提示詞改寫器以確保文本準確描述所提供的參考圖像。生成過程采用修正流軌跡執(zhí)行50步采樣,并通過尺度因子為的無分類器引導技術進行指導。每一步的引導噪聲估計量計算如下:

其中是基于提示的條件噪聲預測,是無條件預測。該估計值隨后由調度器用于推導。

實驗

實驗設置

基準與評估指標:為確保公平比較,采用OpenS2V-Eval基準并遵循其官方評估協(xié)議,該協(xié)議對主題到視頻生成進行主題一致性和身份保真度的細粒度評估。該基準包含七個不同類別的180個提示,涵蓋從單一主體到多主體及人-物交互的場景。為量化性能,本文報告該協(xié)議的自動化指標,所有指標分數(shù)越高代表結果越好。這些指標包括衡量視覺吸引力的美學評分、時序平滑度的運動平滑度、運動幅度的運動幅度以及身份保持的面部相似度。本文還使用了OpenS2V-Eval引入的三個與人類感知高度相關的指標:主題一致性的NexusScore、自然度的NaturalScore和文本-視頻相關性的GmeScore。

實現(xiàn)細節(jié):BindWeave基于DiT架構的基礎視頻生成模型進行微調。本評估不包括文本到視頻和圖像到視頻的預訓練階段。對于核心指令規(guī)劃模塊,本文采用Qwen2.5-VL-7B作為多模態(tài)大語言模型。為使多模態(tài)控制信號與DiT條件空間對齊,本文引入了輕量級連接器來投影Qwen2.5-VL的隱狀態(tài)。具體而言,該連接器采用具有GELU激活函數(shù)的雙層MLP結構。本文使用Adam優(yōu)化器訓練模型,學習率為5e-6,全局批大小為512。為減輕復制粘貼偽影,本文對參考圖像應用數(shù)據(jù)增強技術。在推理過程中,本文使用50步去噪,并將無分類器引導尺度設置為5。

基線方法:將BindWeave與最先進的視頻定制方法進行比較,包括開源方法和商業(yè)產(chǎn)品。

定量結果

本文在OpenS2V-Eval基準上進行了全面比較,如下表1所示,跨多種場景提供了廣泛而嚴格的評估。遵循基準協(xié)議,每種方法生成180個視頻進行評估以確保統(tǒng)計可靠性并覆蓋所有類別。本文報告了前文所述的八項自動指標以確保全面評估,從而統(tǒng)一捕捉視覺質量、時序行為和語義對齊。如下表1所示,BindWeave在總體得分上達到了新的SOTA,其中NexusScore顯著領先,凸顯了其在主題一致性方面的優(yōu)勢。值得注意的是,NexusScore旨在解決先前全局幀CLIP或DINO比較的局限性,提供基于語義且抗噪聲的評估,能更好反映感知身份保真度。它通過檢測后比較策略實現(xiàn)這一目標:首先定位真實目標,裁剪相關區(qū)域以抑制背景干擾,然后在基于檢索的多模態(tài)特征空間中計算相似度,最后聚合已驗證裁剪區(qū)域的得分以獲得可靠總結。重要的是,BindWeave在其他指標上也保持強勁競爭力,包括面部相似度、美學評分、GmeScore、運動相關指標以及自然度,這些分別反映了其在身份保持、視覺吸引力、文本-視頻對齊、時序連貫性與運動幅度以及跨廣泛提示和類別的整體自然度方面的優(yōu)勢。

定性結果

為清晰展示本文方法的有效性,在下圖4和下圖5中呈現(xiàn)了一些典型的主題到視頻場景,包括單人體到視頻、人-物到視頻、單物體到視頻和多實體到視頻。如下圖4左面板所示,Vidu、Pika、Kling和Hailuo等商業(yè)模型能生成視覺吸引人的視頻,但在主題一致性方面存在困難。在開源方法中,SkyReel-A2在主題一致性上相對具有競爭力,但其整體視覺美學落后于本文的BindWeave。VACE和Phantom同樣表現(xiàn)出較弱的主題一致性。在下圖4右面板中,本文的方法實現(xiàn)了顯著更優(yōu)的主題一致性、文本對齊和視覺質量。如下圖5左面板所示,在單物體到視頻場景中,Vidu和Pika等商業(yè)模型仍表現(xiàn)出明顯的物理和語義合理性違反——本文將其總結為“常識違反”。Kling實現(xiàn)了強大的視覺美學但主題一致性較差。SkyReels-A2顯示出嚴重失真和同樣薄弱的主題一致性,Phantom也難以保持主題一致性。在基線方法中,VACE能較好保持主題一致性但運動連貫性和自然度有限。相比之下,本文的BindWeave在提供強大主題一致性的同時,還實現(xiàn)了自然連貫的運動。值得注意的是,在下圖5右面板所示的多對象和復雜指令設置下,Vidu和Pika等方法經(jīng)常遺漏關鍵提示,Kling表現(xiàn)出嚴重的物理不合理性,MAGREF未能保持主題一致性;其他基線方法也忽略了關鍵提示細節(jié)。相比之下,本文的結果在保持強大主題一致性的同時呈現(xiàn)出細粒度細節(jié)。本文將此歸因于BindWeave通過MLLM顯式整合參考圖像和文本提示的跨模態(tài)能力,能聯(lián)合解析實體、屬性和對象間關系。因此,BindWeave保留了微妙而關鍵的細節(jié),并構建統(tǒng)一、時序一致的場景規(guī)劃以指導連貫生成。這種深度跨模態(tài)整合可靠地強化了關鍵提示元素,并為多實體交互嵌入基本物理常識,從而減少不合理結果。

消融研究

本文對結合MLLM與T5派生信號以指導DiT生成的控制條件化機制進行消融實驗。比較了僅使用T5的基線方案與本文的T5+Qwen2.5-VL組合方案。值得注意的是,僅使用MLLM的方案在訓練過程中不穩(wěn)定且未能收斂,因此未納入定量分析。如下表2所示,T5+Qwen2.5-VL組合在美學質量、運動表現(xiàn)、自然度及文本相關性方面均持續(xù)優(yōu)于僅T5方案。下圖6的定性對比進一步驗證了這一發(fā)現(xiàn):當參考圖像存在尺度失配時,僅T5基線傾向于生成不真實的主體尺寸,且在復雜指令下經(jīng)常錯誤解析動作-對象關系,而T5+Qwen2.5-VL組合能保持準確 grounding 并執(zhí)行預期交互。本文將這些提升歸因于互補條件化機制——MLLM提供多模態(tài)的身份與關系感知線索以消除主體歧義并提升時序連貫性,而T5則提供精確的語言 grounding 以穩(wěn)定優(yōu)化過程。兩者的拼接為DiT產(chǎn)生了更豐富可靠的控制信號。

結論

BindWeave——一個新穎的主題一致性視頻生成框架,通過顯式跨模態(tài)整合技術在單主體與多主體場景中生成具備一致性、文本對齊且視覺吸引力的視頻。通過采用MLLM深度融合參考圖像與文本提示信息以促進聯(lián)合學習,BindWeave有效建模實體身份、屬性及關系,從而實現(xiàn)細粒度 grounding 與強健的主體保持能力。實證結果表明,BindWeave已完整掌握跨模態(tài)融合知識,能夠生成高保真度的主題一致性視頻。在OpenS2V基準測試中,BindWeave實現(xiàn)了最先進的性能表現(xiàn),超越現(xiàn)有開源方案與商業(yè)模型,充分彰顯其技術優(yōu)勢?傮w而言,BindWeave為主題視頻生成任務提供了全新視角,并為未來在一致性、真實感與可控性方面的突破指明了方向。

參考文獻

[1] BINDWEAVE: SUBJECT-CONSISTENT VIDEO GENERATION VIA CROSS-MODAL INTEGRATION

原文標題 : 主題一致超越所有開源與商業(yè)模型!中科大&字節(jié)開源統(tǒng)一創(chuàng)新框架BindWeave

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號