訂閱
糾錯
加入自媒體

給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細粒度量表馴服大模型,指哪改哪!

作者:Xuelu Feng等

解讀:AI生成未來

亮點直擊

提出通用化基于量規(guī)的獎勵設(shè)計方案,可同時適用于擴散模型與自回歸文生圖模型;

構(gòu)建提示詞自適應(yīng)、可分解的監(jiān)督框架,顯著提升模型訓練的可解釋性與組合能力;

設(shè)計用戶可控可審計的交互接口,使強化學習獎勵機制具備透明度與易擴展性。

通過動態(tài)生成包含明確視覺標準的評估量規(guī)來實現(xiàn)對齊目標,RubricRL讓文生圖強化學習訓練過程變得更具可解釋性、可擴展性與用戶引導(dǎo)性,為視覺生成與人類意圖的對齊提供了統(tǒng)一基礎(chǔ)。

總結(jié)速覽

解決的問題

獎勵機制不透明:現(xiàn)有方法依賴“黑箱”式的單一標量獎勵或固定權(quán)重復(fù)合指標,導(dǎo)致強化學習訓練過程可解釋性差。

獎勵設(shè)計不靈活:固定的獎勵權(quán)重或標準缺乏靈活性,難以適應(yīng)不同提示詞的多樣化要求,也限制了用戶控制和調(diào)整的能力。

提出的方案

核心框架:提出 RubricRL,一個基于評估量規(guī) 的獎勵設(shè)計框架。

核心機制動態(tài)結(jié)構(gòu)化量規(guī):為每個提示詞動態(tài)生成一個可分解的、細粒度的視覺標準清單(如物體、屬性、OCR、真實感)。

適應(yīng)權(quán)重:根據(jù)提示詞內(nèi)容自適應(yīng)地調(diào)整各標準的重要性權(quán)重。

可解釋與用戶可控:提供模塊化的監(jiān)督信號和允許用戶調(diào)整獎勵維度的接口。

應(yīng)用的技術(shù)

多模態(tài)大模型作為評判器(如o4-mini):用于對量規(guī)中的各項細粒度標準進行獨立、自動化的評估打分。

提示詞自適應(yīng)加權(quán)機制:動態(tài)計算并突出與當前提示詞最相關(guān)的評估維度。

強化學習策略優(yōu)化算法(如GRPO或PPO):利用RubricRL生成的可分解獎勵信號來訓練和優(yōu)化生成模型。

達到的效果

提升模型性能:有效提升了生成圖像在提示詞遵循度、視覺細節(jié)和模型泛化能力方面的表現(xiàn)。

增強訓練透明度:通過可分解的量規(guī)清單,使強化學習獎勵的來源變得可解釋、可審計,訓練過程不再是一個“黑箱”。

實現(xiàn)用戶控制:提供了一個靈活、可擴展的基礎(chǔ)框架,允許用戶根據(jù)需要直接干預(yù)和調(diào)整獎勵的維度,實現(xiàn)了用戶引導(dǎo)的對齊。

保證通用性:該方案被設(shè)計為通用框架,可同時適用于擴散模型和自回歸文本到圖像模型。

方法

本文采用自回歸文生圖模型驗證RubricRL框架有效性,該框架同樣適用于擴散模型。本節(jié)首先介紹RubricRL整體架構(gòu),隨后詳述基于量規(guī)的獎勵設(shè)計、RL訓練方法及動態(tài)滾輪采樣。

整體架構(gòu)

如下圖3所示,給定文本提示,我們首先將其令牌化為文本令牌序列,輸入自回歸文生圖模型以預(yù)測圖像令牌序列,隨后通過預(yù)訓練凍結(jié)的VQ解碼器生成最終圖像。

本文重點研究對進行后RL微調(diào)以提升輸出質(zhì)量,其核心挑戰(zhàn)在于設(shè)計有效、可靠且可解釋的獎勵函數(shù)。現(xiàn)有方法通常采用單一或多個專業(yè)模型評估圖像質(zhì)量的不同維度,例如基于CLIP的圖文語義對齊獎勵、OCR準確率及真實感等。但該方法存在顯著缺陷:(1) 部署多個專業(yè)模型計算成本高且難以擴展至新維度;(2) 需要精細的獎勵校準與權(quán)重調(diào)整。近期研究嘗試從成對人類偏好數(shù)據(jù)學習單一獎勵模型,雖簡化了優(yōu)化過程,但因標注成本高且可解釋性差而擴展性有限。

受現(xiàn)代多模態(tài)大語言模型(如GPT-5)強大多模態(tài)理解能力啟發(fā),我們提出基于量規(guī)的簡易統(tǒng)一獎勵模型。該模型使用具備推理能力的視覺語言模型替代多任務(wù)評估器集合,通過自動構(gòu)建可解釋的、提示詞自適應(yīng)的評估標準(稱為“量規(guī)”)來捕捉每個特定提示的質(zhì)量要求核心維度。

具體而言,給定文本提示,量規(guī)生成模型(通過大語言模型實現(xiàn))會生成一組評估量規(guī):

其中  定義了  個針對特定提示的標準,涵蓋物體數(shù)量、屬性準確性、文本/OCR保真度、空間關(guān)系、美學質(zhì)量及風格一致性等維度。這確保了評估標準能動態(tài)適應(yīng)每個輸入提示的語義與粒度要求。

在強化學習中,其目標是調(diào)整模型參數(shù)  以在提示分布上最大化基于量規(guī)的期望獎勵:

其中  表示提示詞集合。一個 rollout 對應(yīng)從  中根據(jù)  采樣生成的單張圖像,其提供的獎勵信號用于指導(dǎo)策略更新。相較于多模型獎勵系統(tǒng),我們的基于量規(guī)的公式具有三大優(yōu)勢:(1) 簡潔性:無需部署多個任務(wù)專用評估器;(2) 自適應(yīng)性:為每個提示詞動態(tài)生成量規(guī),確保與多樣化用戶意圖的相關(guān)性;(3) 可解釋性:每個獎勵組分均對應(yīng)可讀的評估標準,支持透明的模型診斷與可控的優(yōu)化過程。

基于量規(guī)的獎勵

基于量規(guī)的獎勵函數(shù)分兩階段執(zhí)行:首先,量規(guī)生成模型  解析用戶提示  并生成候選評估量規(guī)集合 ;其次,多模態(tài)LLM評分器實施基于量規(guī)的獎勵 ,針對  中的每個量規(guī)對生成圖像  進行評分。本文采用 GPT-o4-mini 同時承擔這兩個角色,既生成提示詞專用量規(guī),又提供逐準則判斷以聚合為標量獎勵。

量規(guī)構(gòu)建。 給定用戶提示 ,要求 GPT-o4-mini 生成量規(guī)列表。每個量規(guī)條目包含針對特定維度(如OCR對齊度、物體數(shù)量、空間關(guān)系、美學質(zhì)量)的評估關(guān)鍵詞,以及對應(yīng)圖像檢查要點的簡明描述。為促進多樣性并減少量規(guī)生成時的位置偏差,我們在生成指令中隨機排列評估維度,并對 GPT-o4-mini 進行多輪查詢。每輪模型生成一組量規(guī)(每次查詢要求10條;由于一個提示詞可能描述多個物體或?qū)傩,模型可能為同一評估關(guān)鍵詞輸出多條量規(guī)以確保充分覆蓋)。我們將所有有效的關(guān)鍵詞-準則對跨輪次聚合為統(tǒng)一量規(guī)池,剔除模糊或格式異常的條目。最后,為消除冗余并聚焦關(guān)鍵信號,我們要求 GPT-o4-mini 選擇與用戶提示  關(guān)聯(lián)最緊密的10條核心準則。

量規(guī)引導(dǎo)的獎勵。 給定生成圖像 、對應(yīng)文本提示  及量規(guī)池 ,我們再次要求 GPT-o4-mini 為每條準則輸出單一評分 ,以反映生成圖像是否完全滿足該量規(guī)要求( 表示滿足, 表示不滿足)。整體量規(guī)獎勵通過以下歸一化均值計算:

基于GRPO的強化學習

為將自回歸圖像生成器與基于量規(guī)的獎勵對齊,我們采用分組相對策略優(yōu)化(GRPO)——一種專為分組滾輪采樣穩(wěn)定優(yōu)化設(shè)計的PPO變體。對于每個提示詞,生成的滾輪采樣集合構(gòu)成一個分組,每個滾輪的獎勵會相對于組內(nèi)其他結(jié)果進行歸一化處理,以降低方差并改進信用分配。具體而言,令表示當前策略,表示分組中第個滾輪的量規(guī)獎勵。GRPO通過以下公式計算相對優(yōu)勢度:

并通過優(yōu)化類似PPO的剪切目標函數(shù)來更新策略:

其中 , 和  分別表示對應(yīng)于第  個軌跡的采樣動作與狀態(tài), 是 PPO 剪切參數(shù)。通過利用這種分組相對優(yōu)勢度,GRPO 穩(wěn)定了跨提示詞的訓練過程,使模型對異構(gòu)的獎勵量綱和噪聲評估具備魯棒性。結(jié)合我們基于量規(guī)的獎勵機制及下文將介紹的動態(tài)軌跡選擇策略,我們發(fā)現(xiàn) GRPO 能有效引導(dǎo)生成模型產(chǎn)出既符合人類偏好又具備高質(zhì)量的輸出圖像。

動態(tài)軌跡采樣

如上所述,GRPO 中的目標策略模型  通過采樣多條軌跡來探索生成空間,每條軌跡產(chǎn)生一個用于計算優(yōu)勢度的獎勵 。在原始 GRPO 設(shè)計中,同一提示詞生成的所有  條軌跡被歸為一組進行策略更新,即 。后續(xù)研究引入了過采樣與過濾策略以提升訓練效率。例如,DAPO采用提示詞級過采樣方法:它為每個提示詞生成  條軌跡,并丟棄所有軌跡獎勵均為 1 或 0 的提示詞,從而僅保留難度適中的提示詞用于策略優(yōu)化。形式化而言,DAPO 選擇性采樣用于訓練的提示詞,同時仍使用每個保留提示詞的全部軌跡進行 RL 更新。

本文提出一種新的軌跡級動態(tài)采樣機制,該機制在單個提示詞的軌跡內(nèi)部進行選擇,而非過濾整個提示詞。具體來說,給定一個文本提示詞,我們并非只采樣  條軌跡,而是過采樣  條軌跡(),并選擇性使用其中  條具代表性的軌跡子集進行策略更新。為平衡質(zhì)量與多樣性,采用混合選擇策略:選取獎勵最高的前  條軌跡,并從其余軌跡中隨機采樣剩下的  條以促進多樣性。形式化而言,軌跡組  按以下方式構(gòu)建:

其中  表示隨機采樣。實驗表明該混合設(shè)計在穩(wěn)定性與多樣性間取得更優(yōu)平衡,從而提升模型質(zhì)量。因此,公式5的損失計算基于更具代表性且信息量更大的軌跡子集,相較于原始GRPO與DAPO的提示詞級過濾方案,能實現(xiàn)更穩(wěn)定高效的學習。

實驗

實現(xiàn)細節(jié)

遵循SimpleAR方案,從JourneyDB與Synthetic dataset-1M選取11,000張圖像,使用GPT-o4-mini重寫描述以生成不同長度的提示詞并在訓練中隨機選用。網(wǎng)絡(luò)架構(gòu)方面,采用經(jīng)SFT訓練的兩個LLM作為骨干網(wǎng)絡(luò)(Phi3-3.8B與Qwen2.5-0.5B),并分別使用LlamaGen的VQ解碼器與Cosmos-Tokenizer作為視覺解碼器。RL訓練基于TRL框架實施,學習率設(shè)為,預(yù)熱比例0.1。默認批次大小為28,訓練3輪。兩骨干網(wǎng)絡(luò)的輸出圖像分辨率分別為512與1024。動態(tài)軌跡采樣中,每個提示詞從16條軌跡中篩選4條候選。推理階段采用無分類器引導(dǎo)基于條件與非條件邏輯值指導(dǎo)圖像生成。所有實驗在8張NVIDIA A100 GPU上完成。

與前沿方法對比

我們在DPG-Bench與GenEval基準上,將RubricRL與多種獎勵模型在兩類文生圖SFT模型上進行對比。對比獎勵方法按設(shè)計理念分為:1) 單一專用獎勵模型(CLIPScore、HPSv2、Unified Reward、LLaVA-Reward-Phi);2) 固定權(quán)重復(fù)合獎勵指標(AR-GRPO與X-Omni)。為公平比較,通過復(fù)現(xiàn)其方法獲取基線數(shù)據(jù),并采用相同RL框架(GRPO)與設(shè)置,僅獎勵函數(shù)設(shè)計存在差異。為更好理解RL帶來的增益,還報告了初始SFT模型性能(各RL獎勵均基于此獨立應(yīng)用);赑hi3與Qwen2.5骨干網(wǎng)絡(luò)的量化結(jié)果分別呈現(xiàn)在下表1與下表2中。

在GenEval上,遵循[10]采用提示詞重寫以確保評估一致性。結(jié)果顯示:所有經(jīng)過RL后訓練的方法均持續(xù)超越SFT基線,證實了強化學習對圖像生成質(zhì)量的提升作用;且RubricRL取得最佳性能,在兩個LLM骨干網(wǎng)絡(luò)上均以約4%優(yōu)勢超越X-Omni,凸顯了我們基于量規(guī)的獎勵機制的有效性與泛化性。

消融實驗

本節(jié)開展多組消融分析,默認實驗基于Phi3并在GenEval基準上評估。

動態(tài)軌跡采樣策略。 為探究動態(tài)軌跡采樣中不同選擇策略的影響,對比四種方法:未使用動態(tài)采樣的RubricRL(原始版本)、FFKC-1D、DAPO及我們提出的混合策略,結(jié)果記錄于下表3。具體而言,F(xiàn)FKC-1D同樣過采樣更多軌跡,隨后通過先選取中位數(shù)軌跡(獎勵最接近中位數(shù)的軌跡),再貪婪添加與已選軌跡獎勵差異最大的樣本來保持多樣性。相較于我們的混合策略,F(xiàn)FKC-1D過度關(guān)注多樣性而忽略了高質(zhì)量軌跡的重要性。下表3顯示我們的混合采樣策略持續(xù)取得最佳性能,超越FFKC-1D、DAPO及直接使用四條軌跡而無動態(tài)選擇的原始基線。值得注意的是,F(xiàn)FKC-1D與DAPO未能超越原始基線,表明其動態(tài)提示詞采樣與純軌跡多樣性驅(qū)動的采樣策略未能為RL提供額外有效信號。相比之下,我們的混合策略有效平衡了對高獎勵軌跡的利用與多樣候選的探索,使策略模型能同時利用更高質(zhì)量與多樣性的樣本,從而產(chǎn)生更有效的RL信號。

優(yōu)勢度歸一化范圍。 公式4中GRPO使用的優(yōu)勢度通過對組內(nèi)軌跡獎勵進行歸一化(使用均值與標準差)計算。在我們的動態(tài)采樣策略下,僅保留個候選中的條軌跡。這引發(fā)關(guān)鍵設(shè)計選擇:歸一化統(tǒng)計量(均值與標準差)應(yīng)基于全部條軌跡計算,還是僅基于保留的條?我們將這兩種變體分別記為“全局歸一化”與“局部歸一化”。下表4顯示“局部歸一化”產(chǎn)生更優(yōu)性能,這是因為在保留子集內(nèi)歸一化能更好反映指導(dǎo)學習的實際獎勵分布,防止高方差或低質(zhì)量軌跡扭曲梯度方向。

RubricRL vs 采用Best-of-N采樣的SFT。 我們進一步將提出的RubricRL與在推理階段采用Best-of-N采樣策略()的SFT模型對比——該策略在先前研究X-Omni中被視為RL方法在語言任務(wù)中的“性能上限”。具體而言,對GenEval中每個提示詞,我們首先生成量規(guī),隨后從SFT模型采樣8條軌跡,每條軌跡使用基于量規(guī)的獎勵評分,并選取前4條在GenEval上評估。下表5顯示,盡管Best-of-N采樣能顯著獲得更高分數(shù),RubricRL仍實現(xiàn)明顯提升,以超過5%的優(yōu)勢超越前者。該結(jié)果與X-Omni的觀察一致,再次證實強化學習提供更有效的優(yōu)化范式。

失敗案例分析。 作為評分器,盡管GPT-o4-mini在評估生成圖像質(zhì)量方面具備高度通用性與強大能力,我們觀察到其可能給出錯誤評分(如低估或高估物體數(shù)量,尤其在基礎(chǔ)模型生成質(zhì)量較差時)。下圖4展示了GenEval計數(shù)子類中的若干典型失敗案例,如交通燈附近冗余的立柱、交織的自行車及重疊的斑馬。這些挑戰(zhàn)性場景常誤導(dǎo)GPT-o4-mini導(dǎo)致計數(shù)不準。但當基礎(chǔ)模型生成更高質(zhì)量圖像時,該問題顯著緩解。這解釋了為何以Qwen2.5-0.5B為基礎(chǔ)模型時,RubricRL在GenEval“計數(shù)”子類及DPG-Bench“其他”子類(均包含大量計數(shù)案例)的表現(xiàn)差于SFT基線;而使用Phi3-3.8B時該問題幾乎消失,使RubricRL在計數(shù)相關(guān)類別中實現(xiàn)大幅性能提升。

可視化結(jié)果

下圖5中進一步呈現(xiàn)RubricRL與其他基線方法的全面視覺對比。如圖所示,經(jīng)RubricRL訓練的模型持續(xù)生成不僅更具美學吸引力、且與給定輸入提示詞語義對齊更佳的圖像。為輔助解讀,生成圖像中未對齊或缺失的元素在圖中通過加粗文本強調(diào)。例如下圖5第三行中,SFT模型未能完整渲染黑色高頂禮帽,而多個基于RL的方法出現(xiàn)部分未對齊:LLaVA-Reward-Phi與Unified Reward生成的圖像中黑色手提包未正確手持,甚至在某些案例中雙爪描繪兩個手提包卻完全遺漏木質(zhì)手杖。這些定性觀察印證了RubricRL在增強模型遵循復(fù)雜細粒度指令及生成高質(zhì)量提示一致圖像方面的有效性。

結(jié)論

RubricRL——一個基于量規(guī)獎勵的RL框架,為文生圖任務(wù)提供提示詞自適應(yīng)、可分解的監(jiān)督機制。通過顯式構(gòu)建可配置的視覺標準(如計數(shù)、屬性、OCR保真度、真實感)并獨立評分,RubricRL產(chǎn)生可解釋的模塊化信號,無縫集成于標準RL策略優(yōu)化。實驗結(jié)果表明RubricRL在增強文生圖性能方面超越現(xiàn)有基于RL的方法。

參考文獻

[1] RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

       原文標題 : 給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細粒度量表馴服大模型,指哪改哪!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號