0
| 本文作者: 吳思夢 | 2026-06-16 13:47 | 專題:ICML:國際機器學習會議 |
ICML 2026

PRM-PBE方法示意圖
盡管大語言模型在代碼生成和程序推理任務中取得了顯著進展,但其在Programming-by-Example(PBE)任務中的表現仍受到明顯限制。PBE要求模型僅根據輸入輸出樣例推斷潛在程序邏輯,并合成能夠滿足所有樣例的程序。現有LLM方法通常依賴輸入到輸出的直接映射,或借助Chain-of-Thought、執行反饋、監督微調等方式增強推理能力。然而,這類方法缺乏對中間推理過程的細粒度監督,容易生成只滿足部分樣例的shortcut程序,或在復雜邏輯歸納場景下偏離真實意圖。
近日,北京大學、京東、華東師范大學、實驗室聯合研究團隊圍繞 LLM在PBE場景中缺乏過程監督的問題,提出一種面向程序樣例歸納的過程獎勵強化學習框架PRM-PBE。該方法通過反饋引導的推理樹構建過程監督數據,并訓練Process Reward Model(PRM)評估中間推理步驟的可靠性,再結合按失敗模式組織的三階段課程學習與PPO優化程序合成模型,從而提升模型從輸入輸出樣例中捕捉隱含程序邏輯的能力。相關論文題為PRM-PBE : Process Reward Model for Reinforcement Learning in Programming-by-Example。
論文作者:房越、金芝、安杰、陳宏申、李江夢、陳小紅、詹乃軍
通訊作者:金芝、安杰
現有 PBE 方法缺乏對推理過程的細粒度監督
Programming-by-Example的核心目標,是從少量輸入輸出樣例中推斷用戶真正想要的程序邏輯。傳統PBE系統通常依賴預定義DSL,通過符號搜索、遞歸分解或神經網絡引導搜索完成程序合成。隨著大語言模型的發展,PBE不再必須受限于特定DSL,模型可以直接基于自然語言提示、輸入輸出樣例和推理鏈生成通用語言程序。
然而,論文指出,當前LLM-based PBE方法仍存在一個關鍵缺陷:模型主要學習輸入與輸出之間的表層映射,而缺少對中間歸納過程的監督。對于復雜PBE任務,僅憑樣例進行端到端生成容易產生兩類錯誤。一類是模型推斷出完全錯誤的邏輯,例如把“多個列表相同位置元素相等的索引”錯誤理解為簡單集合交集。另一類是模型生成只覆蓋部分樣例的程序,例如任務要求降序排序,模型卻只執行反轉操作,從而在部分樣例上看似正確,但無法表達真實規則。
這些失敗說明,PBE的難點并不只是最終代碼是否通過測試,而在于模型是否能夠在推理過程中逐步接近樣例背后的潛在意圖。若缺少對推理步驟的顯式監督,模型很容易沿著錯誤歸納方向繼續生成,并最終得到看似合理但邏輯不完整的程序。
用反饋引導的推理樹構建過程監督數據
針對PBE中間推理過程難以監督的問題,論文提出反饋引導的推理樹構建方法。推理樹中的每個節點表示一個自然語言形式的中間推理步驟,模型從輸入輸出樣例出發,逐步采樣后繼推理節點,直到形成完整推理路徑。由于這些中間節點本身不能直接執行,系統會在路徑終止后將其轉化為完整程序,并通過執行測試判斷其是否滿足所有樣例。
在此基礎上,論文用后續路徑的成功比例衡量節點質量。若某個節點的大部分后續路徑都能導向正確程序,說明該推理狀態較為可靠。若某個推理前綴的所有后繼路徑都失敗,系統則將其視為潛在邏輯偏離點,并引入外部自然語言指令進行定向修復,從而生成更多高質量正樣本,緩解PBE過程監督數據中正樣本稀疏的問題。
用后繼成功率訓練過程獎勵模型
在完成推理樹構建后,論文進一步訓練Process Reward Model來評估中間推理步驟的質量。PRM并不直接判斷最終程序是否正確,而是為每個推理狀態分配獎勵分數,用來估計該狀態繼續生成正確程序的可能性。
具體而言,論文將節點的后繼成功率作為偏好信號。如果節點A的后續采樣路徑更容易生成正確程序,而節點B的后續路徑更容易失敗,訓練目標就要求PRM給節點A更高分數。相比簡單的正負樣本分類,這種偏好學習能夠更細致地區分不同推理狀態的可靠程度,使模型學會識別更可能通向正確程序的歸納方向。
獲得PRM后,論文將其接入強化學習框架,用過程級獎勵優化程序合成模型。為提升訓練穩定性,研究團隊設計了按失敗模式組織的三階段課程學習策略,使模型從基礎可執行性逐步過渡到復雜邏輯正確性。
第一階段關注語法錯誤和運行時錯誤,訓練模型生成能夠正常執行的程序。第二階段關注可執行但與目標行為完全不一致的程序,引導模型學習輸入輸出樣例中的核心約束。第三階段處理只能通過部分樣例的程序,幫助模型減少對有限樣例的過擬合。在每個階段中,PRM對中間推理狀態提供獎勵,并通過PPO更新策略模型,從而讓模型逐步學習更可靠的程序歸納路徑。
多基準實驗驗證PRM-PBE的有效性
論文在PROSE、SyGuS、Playgol、Lists和MBPP五個代表性PBE基準上進行實驗,覆蓋字符串處理、列表操作、歸納邏輯程序設計以及由 MBPP改造而來的輸入輸出樣例合成任務。實驗同時比較了多種閉源與開源大語言模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flash、Qwen2.5-Coder、DeepSeek-Coder-V2、Llama-3和Qwen3。
主實驗結果顯示,PRM-PBE在所有基準上均顯著優于現有基線。以 DeepSeek-Coder-V2為基礎模型時,SFT的平均Pass@1為42.76%,而PRM-PBE提升至56.61%,帶來13.85個百分點的增益。與最強非PRM基線Claude-3.5-Sonnet的WPS方法相比,PRM-PBE仍高出8.73個百分點。這說明,對于復雜PBE任務,僅依賴提示工程、搜索反饋或監督微調仍然不足,顯式過程獎勵能夠更有效地提升程序合成準確率。

這項工作的影響在于,它把PBE中最難監督的“從樣例歸納程序意圖”這一過程顯式建模出來,并用過程獎勵為強化學習提供了比最終執行結果更細粒度的訓練信號。相比只判斷程序是否通過測試,PRM-PBE 能夠進一步識別推理路徑中的偏離點,減少只滿足部分樣例的shortcut 程序,使模型更可靠地學習輸入輸出樣例背后的全局邏輯。
更進一步,這一框架也為后續LLM程序合成研究提供了可擴展思路:對于許多難以直接標注中間過程的任務,可以通過“采樣后續路徑、驗證最終結果、反推中間狀態價值”的方式構建過程監督信號。隨著更強的代碼模型和自動驗證工具發展,類似的過程獎勵機制有望擴展到更復雜的程序歸納、算法生成和真實軟件工程任務中。
原文作者:公眾號“天基綜合信息系統全國重點實驗室”
原文鏈接:https://mp.weixin.qq.com/s/AQxUnKKX4qqRgi3KpRgSpw
雷峰網(公眾號:雷峰網)