0
| 本文作者: 陳淑瑜 | 2026-06-15 14:46 | 專題:ICML:國際機(jī)器學(xué)習(xí)會(huì)議 |
來源:公眾號“專知”
原文鏈接:https://mp.weixin.qq.com/s/wKPyQKCqzNw9a2FyhcEAxg?scene=1&click_id=26
大語言模型智能體進(jìn)入真實(shí)環(huán)境后,常常需要連續(xù)完成一組相關(guān)任務(wù):與同一用戶長期協(xié)作、反復(fù)調(diào)用工具、持續(xù)探索一個(gè)環(huán)境,或者多輪面對具有穩(wěn)定行為模式的對手。此時(shí),真正重要的不只是模型能否完成單次任務(wù),而是它能否從已經(jīng)發(fā)生的交互中吸取經(jīng)驗(yàn),在后續(xù)任務(wù)中做得更好。這種能力通常被稱為測試時(shí)學(xué)習(xí)(Test-Time Learning,TTL)。
一種自然方案是為智能體維護(hù)顯式文本記憶:每次交互結(jié)束后總結(jié)經(jīng)驗(yàn),再把記憶交給下一輪智能體。然而,當(dāng)前許多記憶系統(tǒng)仍依賴人工設(shè)計(jì)的反思提示詞或更新規(guī)則。它們能夠生成“看起來合理”的總結(jié),卻不保證這些總結(jié)真的有助于下游決策,更難在多輪交互中穩(wěn)定完成證據(jù)積累、假設(shè)修正和策略更新。
來自北京大學(xué)、清華大學(xué)、智譜 AI 等機(jī)構(gòu)的研究者在 ICML 2026 論文《From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory》中提出 MEMOPILOT。其核心思想非常直接:不更新負(fù)責(zé)行動(dòng)的玩家模型,而是訓(xùn)練一個(gè)獨(dú)立的“記憶副駕駛”,讓記憶更新本身成為可通過強(qiáng)化學(xué)習(xí)優(yōu)化的策略。
MEMOPILOT 將跨局記憶演化建模為多輪馬爾可夫決策過程,并采用多輪 GRPO 訓(xùn)練。每次記憶更新不再只追求語言上的完整或自然,而要對下一局的真實(shí)收益負(fù)責(zé)。實(shí)驗(yàn)表明,在凍結(jié)玩家模型的條件下,MEMOPILOT 在石頭剪刀布和限注德州撲克中均取得最高 Elo,并能零樣本遷移到更強(qiáng)的 Qwen3-235B 玩家;在 CoSQL 和 DS-1000 兩個(gè)真實(shí)任務(wù)上也分別達(dá)到 73.5% 和 56.3%,說明這種方法學(xué)習(xí)到的不只是游戲技巧,而是一種更一般的經(jīng)驗(yàn)組織與行動(dòng)指導(dǎo)能力。

論文:From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory
作者:Yishuo Cai、Xingyu Guo、Xuancheng Huang、Jinhua Du、Can Huang、Wenxuan Huang、Wenhan Ma、Yuyang Hu、Aohan Zeng、Jie Tang、Xu Sun
會(huì)議:ICML 2026
論文地址:https://arxiv.org/abs/2606.08656
測試時(shí)學(xué)習(xí)關(guān)注的是這樣一種在線過程:任務(wù)或交互按時(shí)間順序逐個(gè)到來,智能體無法提前看到未來,只能利用過去的經(jīng)驗(yàn)改善之后的表現(xiàn)。它不同于傳統(tǒng)訓(xùn)練,因?yàn)椴渴痣A段通常不方便頻繁更新模型參數(shù);也不同于普通上下文學(xué)習(xí),因?yàn)榻换タ赡芎荛L,原始?xì)v史會(huì)迅速超過上下文預(yù)算,并混入大量偶然、重復(fù)或無關(guān)信息。
顯式文本記憶因此成為一個(gè)很有吸引力的接口。它可以壓縮歷史、保留關(guān)鍵規(guī)律,并以自然語言形式向任意凍結(jié)模型提供指導(dǎo)。Reflexion、ExpeL、MemoryBank、Dynamic Cheatsheet 和 ReasoningBank 等工作已經(jīng)證明,反思、經(jīng)驗(yàn)提煉和動(dòng)態(tài)記憶可以提升智能體表現(xiàn)。
但“生成一段記憶”和“生成能提高未來獎(jiǎng)勵(lì)的記憶”并不是同一件事。論文指出,手工提示驅(qū)動(dòng)的記憶更新面臨三個(gè)根本問題。
第一,優(yōu)化目標(biāo)錯(cuò)位。提示詞通常要求模型總結(jié)錯(cuò)誤、提取規(guī)律或給出建議,卻沒有直接約束這些文本是否能讓下一次行動(dòng)獲得更高收益。
第二,信用分配困難。某條記憶可能在下一輪立即奏效,也可能因?yàn)榄h(huán)境隨機(jī)性暫時(shí)失敗。若只看整段交互的累計(jì)回報(bào),很難判斷究竟是哪一次記憶更新產(chǎn)生了作用。
第三,多輪演化能力不足。真正有用的記憶不是一次性總結(jié),而應(yīng)經(jīng)歷“提出假設(shè)、收集證據(jù)、驗(yàn)證或否定、修正策略”的循環(huán)。僅靠單輪反思,很容易把偶然事件誤判為穩(wěn)定規(guī)律,或者在新證據(jù)出現(xiàn)后仍固守舊結(jié)論。
因此,論文把問題重新表述為:能否直接訓(xùn)練一個(gè)記憶更新策略,使其產(chǎn)生的文本通過凍結(jié)玩家的后續(xù)行為,最大化跨多輪交互的累計(jì)收益?

MEMOPILOT 由兩個(gè)角色構(gòu)成。
玩家模型
記憶模型
設(shè)第 \(t\) 局交互軌跡為 \(e_t\),收益為 \(r_t\),上一輪記憶為 \(m_{t-1}\),記憶模型為 \(G_\theta\),則新記憶為:
m_t = G_theta(e_t, m_{t-1})
隨后,凍結(jié)玩家 \(\pi\) 在第 \(t+1\) 局中使用 \(m_t\) 進(jìn)行決策。也就是說,第 \(t\) 次記憶更新的質(zhì)量,不由語言模型自評,而由它能否改善下一局表現(xiàn)來檢驗(yàn)。
這一設(shè)計(jì)有兩個(gè)重要意義。其一,記憶模塊是即插即用的,可以與不同規(guī)模、不同來源的玩家模型組合。其二,訓(xùn)練成本集中在較小的記憶更新模型上,無須對昂貴的主模型進(jìn)行在線微調(diào),也避免參數(shù)更新破壞玩家原有能力。

論文選擇多輪石頭剪刀布(RPS)和限注德州撲克(LHE)作為主要試驗(yàn)場,并不是為了單純證明模型“會(huì)玩游戲”。這兩類環(huán)境同時(shí)滿足三個(gè)測試時(shí)學(xué)習(xí)條件:對手存在可利用的穩(wěn)定結(jié)構(gòu);行為可以用明確規(guī)則控制和復(fù)現(xiàn);每局都有清晰獎(jiǎng)勵(lì),可用于強(qiáng)化學(xué)習(xí)。德州撲克還包含不完全信息和發(fā)牌隨機(jī)性,可以檢驗(yàn)?zāi)P湍芊駞^(qū)分真實(shí)策略信號與偶然結(jié)果。
作者將記憶生成形式化為馬爾可夫決策過程 \(M=(S,A,P,R)\)。
在第 \(t\) 輪,狀態(tài)為 s_t = (e_t, m_{t-1}),即剛結(jié)束的交互軌跡與此前記憶;動(dòng)作是記憶模型生成的新文本 \(m_t\);狀態(tài)轉(zhuǎn)移由凍結(jié)玩家依據(jù)新記憶與環(huán)境、對手進(jìn)行下一局交互而產(chǎn)生;獎(jiǎng)勵(lì)則是游戲結(jié)果。
一段訓(xùn)練 episode 包含連續(xù) \(T\) 局游戲。第一局沒有學(xué)習(xí)后的指導(dǎo),主要用于探索;從第一局結(jié)束后開始,記憶模型不斷更新記憶,玩家在后續(xù)局中使用它。理論目標(biāo)是最大化所有記憶指導(dǎo)局的累計(jì)收益:
R(tau) = sum(r_(t+1)), t = 1 ... T-1
這個(gè)表述抓住了一個(gè)容易被忽略的事實(shí):記憶不是被動(dòng)數(shù)據(jù)庫,而是會(huì)改變未來行為、未來觀察乃至未來可獲得證據(jù)的決策變量。例如,記憶建議玩家采取更激進(jìn)的試探動(dòng)作,可能短期損失籌碼,卻暴露對手面對加注時(shí)的規(guī)律。因此,記憶更新天然具有序列決策屬性。
不過,直接使用長時(shí)程累計(jì)回報(bào)訓(xùn)練會(huì)帶來嚴(yán)重噪聲。特別是在撲克中,未來收益同時(shí)受到記憶質(zhì)量、發(fā)牌結(jié)果、位置和對手動(dòng)作影響。一條優(yōu)秀記憶可能因?yàn)橄乱痪帜玫讲钆贫玫降头郑桓h(yuǎn)期獎(jiǎng)勵(lì)與當(dāng)前記憶之間的因果關(guān)系則更加模糊。
為解決信用分配和高方差問題,MEMOPILOT 采用多輪 Group Relative Policy Optimization(GRPO),并對標(biāo)準(zhǔn)形式做了兩項(xiàng)關(guān)鍵改造。
對同一對手策略,舊策略模型并行采樣 \(G\) 條多輪軌跡。第 \(i\) 條軌跡在第 \(t\) 次生成記憶 \(m_{i,t}\) 后,作者把下一局收益直接作為該次記憶更新的代理回報(bào):
R_(i,t) = r_(i,t+1)
這樣,第 \(t\) 次記憶負(fù)責(zé)解釋和改進(jìn)第 \(t+1\) 局,而不是承擔(dān)后面所有隨機(jī)事件的結(jié)果。它雖然縮短了信用分配范圍,卻顯著降低了方差,并使訓(xùn)練信號更貼近“這段建議是否立即可執(zhí)行、是否確實(shí)有效”。
對于相同對手和相同輪次,作者比較不同并行 rollout 的下一局收益,計(jì)算組內(nèi)中心化優(yōu)勢:
A_(i,t) = R_(i,t) - mean({R_(i,t)} from i=1...G)
該優(yōu)勢值被應(yīng)用到同一次記憶生成的所有 token。最終優(yōu)化維度從普通 GRPO 的“組、token”擴(kuò)展為“組、輪次、token”。不同輪次的記憶更新獲得相對獨(dú)立的訓(xùn)練信號,避免后期上下文和環(huán)境隨機(jī)性污染前期更新。
論文沒有除以組內(nèi)標(biāo)準(zhǔn)差。作者遵循相關(guān)研究的經(jīng)驗(yàn),保留獎(jiǎng)勵(lì)尺度差異,以避免在方差很小的組中放大噪聲。訓(xùn)練時(shí)仍使用裁剪重要性比率,以限制新舊策略偏移。

這種方法可以理解為一種“短反饋訓(xùn)練、長過程演化”:每一步用低方差的下一局獎(jiǎng)勵(lì)學(xué)習(xí),但記憶狀態(tài)本身跨輪保留,因此模型仍能學(xué)會(huì)逐步積累和修正證據(jù)。
僅有強(qiáng)化學(xué)習(xí)目標(biāo)仍不夠。文本記憶的動(dòng)作空間極大,如果完全自由生成,模型可能寫出冗長復(fù)盤、模糊判斷或不便執(zhí)行的建議。MEMOPILOT 為記憶規(guī)定了三層結(jié)構(gòu)。
識別層分析最近軌跡中的證據(jù),判斷上一輪策略為何成功或失敗,并更新關(guān)于對手的假設(shè)。它關(guān)注“看到了什么”和“這些現(xiàn)象說明什么”,承擔(dān)診斷功能。
維護(hù)層保存跨輪信念狀態(tài)。每條模式不僅記錄內(nèi)容,還標(biāo)注“假設(shè)、已驗(yàn)證、已確認(rèn)”等狀態(tài),附帶觀察次數(shù)、成功次數(shù)和證據(jù)來源。在固定 512 token 的記憶預(yù)算內(nèi),這一層需要主動(dòng)保留有價(jià)值信息、合并重復(fù)信息并淘汰失效判斷。
指導(dǎo)層把上面的分析壓縮成簡潔、可執(zhí)行的規(guī)則,并且只有這一部分會(huì)交給凍結(jié)玩家。換言之,玩家無需閱讀完整推理和知識庫,只接收下一局應(yīng)該如何行動(dòng)的策略提示。
三層設(shè)計(jì)把“面向記憶模型的內(nèi)部狀態(tài)”和“面向玩家模型的控制指令”分離開來。識別層允許展開分析,維護(hù)層保證長期一致性,指導(dǎo)層則降低玩家的認(rèn)知負(fù)擔(dān)。這也是 MEMOPILOT 超越簡單歷史拼接的重要原因:原始軌跡包含信息,但并未替玩家完成從證據(jù)到行動(dòng)的轉(zhuǎn)換。
作者構(gòu)建了 32 個(gè)訓(xùn)練 RPS 策略、45 個(gè)訓(xùn)練 LHE 策略,以及 41 個(gè)留出策略,其中包括 32 個(gè) RPS 和 9 個(gè) LHE 測試對手。對手不是黑盒模型,而是由可執(zhí)行自然語言指令定義,例如固定序列、根據(jù)上一步反應(yīng)的規(guī)則、帶條件觸發(fā)的組合模式,以及撲克中的跟注站、特定街激進(jìn)、延遲偷池和河牌詐唬等。
對手構(gòu)建遵循“人類種子策略、LLM 擴(kuò)寫與標(biāo)準(zhǔn)化、人工復(fù)核和試運(yùn)行”的流程。訓(xùn)練集與測試集按機(jī)制劃分,而非僅隨機(jī)拆分文字描述。留出對手會(huì)保留相近戰(zhàn)略意圖,但改變觸發(fā)條件、暴露信息的階段或規(guī)則組合,因而能夠測試記憶模型是否真的學(xué)會(huì)維護(hù)與修正假設(shè)。
主要實(shí)驗(yàn)采用 Qwen2.5-14B-Instruct 作為凍結(jié)玩家和基礎(chǔ)記憶模型,并進(jìn)一步把訓(xùn)練好的 MEMOPILOT 零樣本接到 Qwen3-235B-A22B 玩家上。每種設(shè)置運(yùn)行 64 次并報(bào)告均值。每局跨局記憶預(yù)算統(tǒng)一限制為 512 token,以保證與各類基線公平比較。
基線包括無記憶、完整歷史、人類編寫反制策略,以及 Reflexion、ExpeL、MemoryBank、AWM、ReasoningBank 等方法;還包括由 Qwen2.5-14B、DeepSeek-V3.2 和 Gemini-3.0-Flash 直接根據(jù)提示更新記憶的強(qiáng)模型基線。
在 Qwen2.5-14B 玩家上,無記憶基線的 RPS@5 得分為 0.43,LHE@5 為 -1.36。使用同一個(gè) Qwen2.5-14B 通過提示詞更新記憶,只達(dá)到 0.21 和 -0.23;DeepSeek-V3.2 記憶模型取得 1.64 和 -0.78。這說明更強(qiáng)語言模型生成的反思不等于有效的在線學(xué)習(xí)策略。
MEMOPILOT 則達(dá)到 3.28 和 2.03,相對強(qiáng)基線分別提升 3.10 和 2.30。尤其在德州撲克中,它把原本為負(fù)的平均收益轉(zhuǎn)為顯著正收益。
將訓(xùn)練好的記憶模型直接接入 Qwen3-235B-A22B,不進(jìn)行任何再訓(xùn)練,MEMOPILOT 在 RPS 和 LHE 上仍取得 3.27 和 1.31。這說明它沒有僅僅記住 Qwen2.5-14B 的措辭習(xí)慣,而是學(xué)會(huì)生成更一般的、可被不同玩家執(zhí)行的策略指導(dǎo)。
在所有留出對手的綜合排名中,MEMOPILOT 在 LHE 上獲得 1762 Elo,在 RPS 上獲得 1590 Elo,兩項(xiàng)均排名第一。完整歷史輸入反而經(jīng)常落后,表明更多上下文并不自動(dòng)帶來更強(qiáng)適應(yīng)能力;未經(jīng)篩選的歷史會(huì)稀釋關(guān)鍵規(guī)律,并提高玩家模型的推理負(fù)擔(dān)。

值得注意的是,MEMOPILOT 的優(yōu)勢會(huì)隨游戲推進(jìn)迅速出現(xiàn)。這正是測試時(shí)學(xué)習(xí)應(yīng)具備的特征:系統(tǒng)不是靠訓(xùn)練集平均性能取勝,而是在面對一個(gè)此前未見的具體對手時(shí),通過少量交互識別其模式并形成針對性策略。
為了檢驗(yàn)方法是否只適用于博弈,作者進(jìn)一步在 StreamBench 上評估 CoSQL 和 DS-1000。前者要求連續(xù)處理上下文相關(guān)的文本到 SQL 查詢,后者涉及數(shù)據(jù)科學(xué)代碼生成;兩者都需要從此前任務(wù)的反饋中積累可復(fù)用經(jīng)驗(yàn)。
在 CoSQL 上,無記憶、完整歷史、DeepSeek-V3.2 記憶和 Qwen2.5-14B 記憶的結(jié)果分別為 69.5%、70.0%、67.5% 和 66.0%,MEMOPILOT 達(dá)到 73.5%。
在 DS-1000 上,對應(yīng)結(jié)果為 50.0%、52.5%、50.0% 和 48.8%,MEMOPILOT 達(dá)到 56.3%。這兩組結(jié)果尤其有啟發(fā)性:通用大模型的提示式總結(jié)可能刪除真正重要的失敗條件,甚至讓后續(xù)表現(xiàn)下降;經(jīng)過獎(jiǎng)勵(lì)訓(xùn)練的記憶則更傾向于保留能改變下一次行動(dòng)的信息。

作者直接把真實(shí)對手策略描述交給玩家,RPS 和 LHE 得分只有 0.75 和 -0.48;由人類專家編寫反制策略后,提升到 1.00 和 1.08;MEMOPILOT 則達(dá)到 3.28 和 2.07。
這個(gè)結(jié)果說明,事實(shí)正確性只是有用記憶的必要條件之一。玩家還需要把事實(shí)轉(zhuǎn)化為具體動(dòng)作規(guī)則,并針對自身能力、環(huán)境約束和決策時(shí)機(jī)進(jìn)行表達(dá)。MEMOPILOT 的訓(xùn)練目標(biāo)正是獎(jiǎng)勵(lì)這種“可執(zhí)行性”。
當(dāng)作者讓 DeepSeek-V3.2 在不改變邏輯和數(shù)字的前提下,把 MEMOPILOT 記憶改寫成更自然的專業(yè)英語,成績從 3.28/2.07 降至 3.12/1.65。內(nèi)容大體不變,表現(xiàn)仍發(fā)生下降,說明記憶的措辭、結(jié)構(gòu)和指令強(qiáng)度也是智能體控制接口的一部分。
在 LHE 上,無記憶得分為 -1.36,完整歷史為 -1.22;僅使用三層提示結(jié)構(gòu)但不訓(xùn)練,可提升到 -0.23。采用強(qiáng)化學(xué)習(xí)但允許自由格式生成,得分達(dá)到 1.04;三層結(jié)構(gòu)與強(qiáng)化學(xué)習(xí)結(jié)合后進(jìn)一步達(dá)到 2.03。
因此,結(jié)構(gòu)化提示提供了有效歸納偏置,幫助模型分離診斷、狀態(tài)維護(hù)和行動(dòng)指導(dǎo);強(qiáng)化學(xué)習(xí)則讓這些內(nèi)容與實(shí)際收益對齊。結(jié)構(gòu)不能替代優(yōu)化,優(yōu)化也會(huì)受益于合適的文本狀態(tài)空間。
作者比較兩輪和五輪訓(xùn)練。兩輪訓(xùn)練能夠?qū)W習(xí)快速反應(yīng),但五輪訓(xùn)練在十局評測中表現(xiàn)更穩(wěn)定,并在后期持續(xù)獲得更高累計(jì)收益。這說明多輪訓(xùn)練不僅讓模型學(xué)會(huì)寫一條好建議,還讓它學(xué)會(huì)何時(shí)堅(jiān)持已有判斷、何時(shí)因新證據(jù)調(diào)整信念。
面對對手 B 時(shí),冷啟動(dòng) MEMOPILOT 在 RPS/LHE 上得到 3.28/2.03;先與另一個(gè)對手 A 交互再切換到 B,結(jié)果為 2.56/3.26;先與 B 交互后繼續(xù)面對 B,則達(dá)到 5.22/3.58。
同一對手的已有記憶顯著提高后續(xù)表現(xiàn),證明系統(tǒng)確實(shí)積累了針對性知識。跨對手切換后仍保持較強(qiáng)收益,則表明記憶模型能夠覆蓋舊信念并重新適應(yīng),而不是簡單追加不可修改的經(jīng)驗(yàn)條目。
在 LHE 中,使用長時(shí)程累計(jì)獎(jiǎng)勵(lì)訓(xùn)練只得到 0.61,而使用下一局單步獎(jiǎng)勵(lì)達(dá)到 2.03。撲克的發(fā)牌隨機(jī)性會(huì)讓遠(yuǎn)期回報(bào)成為高噪聲監(jiān)督,單步代理獎(jiǎng)勵(lì)雖然更局部,卻提供了更可靠的因果信號。

MEMOPILOT 的主要困難來自“維護(hù)”和“修正”的矛盾。穩(wěn)定環(huán)境中,保留已確認(rèn)規(guī)律能減少無謂波動(dòng);但當(dāng)對手頻繁改變策略時(shí),舊記憶會(huì)成為負(fù)擔(dān)。
LHE 實(shí)驗(yàn)中,面對固定對手時(shí)得分為 2.03;每五局切換一次對手降至 1.76;每兩局切換一次進(jìn)一步降至 1.21;面對同樣擁有記憶、能夠主動(dòng)適應(yīng)的對手時(shí)為 1.25。變化速度越快,系統(tǒng)越難在有限證據(jù)下判斷當(dāng)前異常是隨機(jī)波動(dòng)還是策略已經(jīng)改變。

未來可以引入顯式變化點(diǎn)檢測、記憶時(shí)間戳、假設(shè)衰減和多時(shí)間尺度狀態(tài):短期層快速響應(yīng)新跡象,長期層保存經(jīng)過充分驗(yàn)證的規(guī)律,并由門控機(jī)制決定何時(shí)覆蓋。
該方法需要多次相關(guān)交互以及能夠評價(jià)結(jié)果的獎(jiǎng)勵(lì)。如果任務(wù)只有一次機(jī)會(huì)、反饋極度延遲,或者獎(jiǎng)勵(lì)無法反映真實(shí)目標(biāo),就難以構(gòu)造穩(wěn)定訓(xùn)練信號。現(xiàn)實(shí)系統(tǒng)還可能存在多目標(biāo)沖突,例如正確率、成本、延遲和安全性必須同時(shí)權(quán)衡。
實(shí)驗(yàn)將記憶限制為 512 token,這有利于公平比較和高效推理,但更長任務(wù)會(huì)要求分層壓縮、檢索和遺忘機(jī)制。僅靠單塊文本不斷改寫,可能錯(cuò)誤刪除罕見卻關(guān)鍵的邊界條件。
可控對手池提供了清晰因果分析,但真實(shí)用戶、網(wǎng)頁、軟件工具和多智能體環(huán)境更加開放。觀察噪聲、目標(biāo)漂移、工具故障和反饋偏差會(huì)同時(shí)出現(xiàn)。StreamBench 結(jié)果證明了一定遷移潛力,但還不足以代表長周期生產(chǎn)環(huán)境。
MEMOPILOT 最重要的貢獻(xiàn),不是提出了又一種記憶提示模板,而是改變了記憶系統(tǒng)的訓(xùn)練對象和評價(jià)標(biāo)準(zhǔn)。
過去,記憶通常被當(dāng)作存儲層:系統(tǒng)關(guān)注寫入什么、如何檢索、如何壓縮。本文則把記憶更新視為一種策略,記憶文本是影響未來行動(dòng)的控制信號。評價(jià)一段記憶時(shí),不應(yīng)只問它是否忠實(shí)、清晰和完整,還要問它是否讓下游智能體在下一次交互中采取了更好的動(dòng)作。
這一視角對通用智能體系統(tǒng)有幾方面價(jià)值。
模塊化升級
行為對齊
持續(xù)學(xué)習(xí)
可解釋控制
新的優(yōu)化邊界
對實(shí)際工程而言,一個(gè)值得借鑒的最小方案是:將長期交互壓縮為“證據(jù)、當(dāng)前假設(shè)、驗(yàn)證狀態(tài)、下一步行動(dòng)規(guī)則”四類信息;用下一次任務(wù)的可測結(jié)果評價(jià)更新質(zhì)量;把內(nèi)部分析和給執(zhí)行模型的指令分離;在環(huán)境變化時(shí)顯式降低舊假設(shè)置信度。即便不立即進(jìn)行完整 RL 訓(xùn)練,這些原則也能改善現(xiàn)有記憶管線。
MEMOPILOT 提出了一條清晰路線:讓凍結(jié) LLM 智能體在測試時(shí)持續(xù)變強(qiáng),不一定要在線修改主模型參數(shù),也不應(yīng)只依賴人工編寫的反思規(guī)則;可以訓(xùn)練一個(gè)獨(dú)立記憶模型,把每次交互轉(zhuǎn)化為經(jīng)過驗(yàn)證、可維護(hù)、可執(zhí)行的策略狀態(tài)。
多輪 MDP 建模解決了記憶演化問題,下一局代理獎(jiǎng)勵(lì)和按輪 GRPO 提供了低方差信用分配,三層記憶結(jié)構(gòu)則把診斷、信念維護(hù)與行動(dòng)指導(dǎo)分開。其在 RPS、LHE、CoSQL 和 DS-1000 上的結(jié)果共同說明:真正有效的智能體記憶,不只是過去發(fā)生了什么的摘要,而是面向未來決策、能夠隨著證據(jù)持續(xù)修正的控制策略。
論文地址:https://arxiv.org/abs/2606.08656
本專題其他文章