ICML 2026｜MEMOPILOT：用強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)進(jìn)化的智能體記憶

本文作者：陳淑瑜

2026-06-15 14:46

導(dǎo)語：不更新負(fù)責(zé)行動(dòng)的玩家模型，而是訓(xùn)練一個(gè)獨(dú)立的“記憶副駕駛”，讓記憶更新本身成為可通過強(qiáng)化學(xué)習(xí)優(yōu)化的策略。

來源：公眾號“專知”

原文鏈接：https://mp.weixin.qq.com/s/wKPyQKCqzNw9a2FyhcEAxg?scene=1&click_id=26

大語言模型智能體進(jìn)入真實(shí)環(huán)境后，常常需要連續(xù)完成一組相關(guān)任務(wù)：與同一用戶長期協(xié)作、反復(fù)調(diào)用工具、持續(xù)探索一個(gè)環(huán)境，或者多輪面對具有穩(wěn)定行為模式的對手。此時(shí)，真正重要的不只是模型能否完成單次任務(wù)，而是它能否從已經(jīng)發(fā)生的交互中吸取經(jīng)驗(yàn)，在后續(xù)任務(wù)中做得更好。這種能力通常被稱為測試時(shí)學(xué)習(xí)（Test-Time Learning，TTL）。

一種自然方案是為智能體維護(hù)顯式文本記憶：每次交互結(jié)束后總結(jié)經(jīng)驗(yàn)，再把記憶交給下一輪智能體。然而，當(dāng)前許多記憶系統(tǒng)仍依賴人工設(shè)計(jì)的反思提示詞或更新規(guī)則。它們能夠生成“看起來合理”的總結(jié)，卻不保證這些總結(jié)真的有助于下游決策，更難在多輪交互中穩(wěn)定完成證據(jù)積累、假設(shè)修正和策略更新。

來自北京大學(xué)、清華大學(xué)、智譜 AI 等機(jī)構(gòu)的研究者在 ICML 2026 論文《From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory》中提出 MEMOPILOT。其核心思想非常直接：不更新負(fù)責(zé)行動(dòng)的玩家模型，而是訓(xùn)練一個(gè)獨(dú)立的“記憶副駕駛”，讓記憶更新本身成為可通過強(qiáng)化學(xué)習(xí)優(yōu)化的策略。

MEMOPILOT 將跨局記憶演化建模為多輪馬爾可夫決策過程，并采用多輪 GRPO 訓(xùn)練。每次記憶更新不再只追求語言上的完整或自然，而要對下一局的真實(shí)收益負(fù)責(zé)。實(shí)驗(yàn)表明，在凍結(jié)玩家模型的條件下，MEMOPILOT 在石頭剪刀布和限注德州撲克中均取得最高 Elo，并能零樣本遷移到更強(qiáng)的 Qwen3-235B 玩家；在 CoSQL 和 DS-1000 兩個(gè)真實(shí)任務(wù)上也分別達(dá)到 73.5% 和 56.3%，說明這種方法學(xué)習(xí)到的不只是游戲技巧，而是一種更一般的經(jīng)驗(yàn)組織與行動(dòng)指導(dǎo)能力。

ICML 2026｜MEMOPILOT：用強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)進(jìn)化的智能體記憶

論文：From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory

作者：Yishuo Cai、Xingyu Guo、Xuancheng Huang、Jinhua Du、Can Huang、Wenxuan Huang、Wenhan Ma、Yuyang Hu、Aohan Zeng、Jie Tang、Xu Sun

會(huì)議：ICML 2026

論文地址：https://arxiv.org/abs/2606.08656

一、問題背景：智能體為何需要“可訓(xùn)練的記憶”

測試時(shí)學(xué)習(xí)關(guān)注的是這樣一種在線過程：任務(wù)或交互按時(shí)間順序逐個(gè)到來，智能體無法提前看到未來，只能利用過去的經(jīng)驗(yàn)改善之后的表現(xiàn)。它不同于傳統(tǒng)訓(xùn)練，因?yàn)椴渴痣A段通常不方便頻繁更新模型參數(shù)；也不同于普通上下文學(xué)習(xí)，因?yàn)榻换タ赡芎荛L，原始?xì)v史會(huì)迅速超過上下文預(yù)算，并混入大量偶然、重復(fù)或無關(guān)信息。

顯式文本記憶因此成為一個(gè)很有吸引力的接口。它可以壓縮歷史、保留關(guān)鍵規(guī)律，并以自然語言形式向任意凍結(jié)模型提供指導(dǎo)。Reflexion、ExpeL、MemoryBank、Dynamic Cheatsheet 和 ReasoningBank 等工作已經(jīng)證明，反思、經(jīng)驗(yàn)提煉和動(dòng)態(tài)記憶可以提升智能體表現(xiàn)。

但“生成一段記憶”和“生成能提高未來獎(jiǎng)勵(lì)的記憶”并不是同一件事。論文指出，手工提示驅(qū)動(dòng)的記憶更新面臨三個(gè)根本問題。

第一，優(yōu)化目標(biāo)錯(cuò)位。提示詞通常要求模型總結(jié)錯(cuò)誤、提取規(guī)律或給出建議，卻沒有直接約束這些文本是否能讓下一次行動(dòng)獲得更高收益。

第二，信用分配困難。某條記憶可能在下一輪立即奏效，也可能因?yàn)榄h(huán)境隨機(jī)性暫時(shí)失敗。若只看整段交互的累計(jì)回報(bào)，很難判斷究竟是哪一次記憶更新產(chǎn)生了作用。

第三，多輪演化能力不足。真正有用的記憶不是一次性總結(jié)，而應(yīng)經(jīng)歷“提出假設(shè)、收集證據(jù)、驗(yàn)證或否定、修正策略”的循環(huán)。僅靠單輪反思，很容易把偶然事件誤判為穩(wěn)定規(guī)律，或者在新證據(jù)出現(xiàn)后仍固守舊結(jié)論。

因此，論文把問題重新表述為：能否直接訓(xùn)練一個(gè)記憶更新策略，使其產(chǎn)生的文本通過凍結(jié)玩家的后續(xù)行為，最大化跨多輪交互的累計(jì)收益？

二、核心框架：玩家不變，記憶持續(xù)進(jìn)化

MEMOPILOT 由兩個(gè)角色構(gòu)成。

玩家模型
負(fù)責(zé)在當(dāng)前環(huán)境中采取動(dòng)作。它的參數(shù)始終凍結(jié)，而且跨局無狀態(tài)，只能看到當(dāng)前局環(huán)境和記憶提供的行動(dòng)建議。
記憶模型
讀取最新交互軌跡與上一輪記憶，生成新的記憶狀態(tài)。它是唯一需要訓(xùn)練的模塊。

設(shè)第 \(t\) 局交互軌跡為 \(e_t\)，收益為 \(r_t\)，上一輪記憶為 \(m_{t-1}\)，記憶模型為 \(G_\theta\)，則新記憶為：

m_t = G_theta(e_t, m_{t-1})

隨后，凍結(jié)玩家 \(\pi\) 在第 \(t+1\) 局中使用 \(m_t\) 進(jìn)行決策。也就是說，第 \(t\) 次記憶更新的質(zhì)量，不由語言模型自評，而由它能否改善下一局表現(xiàn)來檢驗(yàn)。

這一設(shè)計(jì)有兩個(gè)重要意義。其一，記憶模塊是即插即用的，可以與不同規(guī)模、不同來源的玩家模型組合。其二，訓(xùn)練成本集中在較小的記憶更新模型上，無須對昂貴的主模型進(jìn)行在線微調(diào)，也避免參數(shù)更新破壞玩家原有能力。

論文選擇多輪石頭剪刀布（RPS）和限注德州撲克（LHE）作為主要試驗(yàn)場，并不是為了單純證明模型“會(huì)玩游戲”。這兩類環(huán)境同時(shí)滿足三個(gè)測試時(shí)學(xué)習(xí)條件：對手存在可利用的穩(wěn)定結(jié)構(gòu)；行為可以用明確規(guī)則控制和復(fù)現(xiàn)；每局都有清晰獎(jiǎng)勵(lì)，可用于強(qiáng)化學(xué)習(xí)。德州撲克還包含不完全信息和發(fā)牌隨機(jī)性，可以檢驗(yàn)?zāi)Ｐ湍芊駞^(qū)分真實(shí)策略信號與偶然結(jié)果。

三、把記憶更新建模為多輪決策過程

作者將記憶生成形式化為馬爾可夫決策過程 \(M=(S,A,P,R)\)。

在第 \(t\) 輪，狀態(tài)為 s_t = (e_t, m_{t-1})，即剛結(jié)束的交互軌跡與此前記憶；動(dòng)作是記憶模型生成的新文本 \(m_t\)；狀態(tài)轉(zhuǎn)移由凍結(jié)玩家依據(jù)新記憶與環(huán)境、對手進(jìn)行下一局交互而產(chǎn)生；獎(jiǎng)勵(lì)則是游戲結(jié)果。

一段訓(xùn)練 episode 包含連續(xù) \(T\) 局游戲。第一局沒有學(xué)習(xí)后的指導(dǎo)，主要用于探索；從第一局結(jié)束后開始，記憶模型不斷更新記憶，玩家在后續(xù)局中使用它。理論目標(biāo)是最大化所有記憶指導(dǎo)局的累計(jì)收益：

R(tau) = sum(r_(t+1)), t = 1 ... T-1

這個(gè)表述抓住了一個(gè)容易被忽略的事實(shí)：記憶不是被動(dòng)數(shù)據(jù)庫，而是會(huì)改變未來行為、未來觀察乃至未來可獲得證據(jù)的決策變量。例如，記憶建議玩家采取更激進(jìn)的試探動(dòng)作，可能短期損失籌碼，卻暴露對手面對加注時(shí)的規(guī)律。因此，記憶更新天然具有序列決策屬性。

不過，直接使用長時(shí)程累計(jì)回報(bào)訓(xùn)練會(huì)帶來嚴(yán)重噪聲。特別是在撲克中，未來收益同時(shí)受到記憶質(zhì)量、發(fā)牌結(jié)果、位置和對手動(dòng)作影響。一條優(yōu)秀記憶可能因?yàn)橄乱痪帜玫讲钆贫玫降头郑桓h(yuǎn)期獎(jiǎng)勵(lì)與當(dāng)前記憶之間的因果關(guān)系則更加模糊。

四、多輪 GRPO：讓每次記憶為下一局負(fù)責(zé)

為解決信用分配和高方差問題，MEMOPILOT 采用多輪 Group Relative Policy Optimization（GRPO），并對標(biāo)準(zhǔn)形式做了兩項(xiàng)關(guān)鍵改造。

4.1 下一局獎(jiǎng)勵(lì)作為單步代理信號

對同一對手策略，舊策略模型并行采樣 \(G\) 條多輪軌跡。第 \(i\) 條軌跡在第 \(t\) 次生成記憶 \(m_{i,t}\) 后，作者把下一局收益直接作為該次記憶更新的代理回報(bào)：

R_(i,t) = r_(i,t+1)

這樣，第 \(t\) 次記憶負(fù)責(zé)解釋和改進(jìn)第 \(t+1\) 局，而不是承擔(dān)后面所有隨機(jī)事件的結(jié)果。它雖然縮短了信用分配范圍，卻顯著降低了方差，并使訓(xùn)練信號更貼近“這段建議是否立即可執(zhí)行、是否確實(shí)有效”。

4.2 按輪次進(jìn)行組內(nèi)相對優(yōu)勢估計(jì)

對于相同對手和相同輪次，作者比較不同并行 rollout 的下一局收益，計(jì)算組內(nèi)中心化優(yōu)勢：

A_(i,t) = R_(i,t) - mean({R_(i,t)} from i=1...G)

該優(yōu)勢值被應(yīng)用到同一次記憶生成的所有 token。最終優(yōu)化維度從普通 GRPO 的“組、token”擴(kuò)展為“組、輪次、token”。不同輪次的記憶更新獲得相對獨(dú)立的訓(xùn)練信號，避免后期上下文和環(huán)境隨機(jī)性污染前期更新。

論文沒有除以組內(nèi)標(biāo)準(zhǔn)差。作者遵循相關(guān)研究的經(jīng)驗(yàn)，保留獎(jiǎng)勵(lì)尺度差異，以避免在方差很小的組中放大噪聲。訓(xùn)練時(shí)仍使用裁剪重要性比率，以限制新舊策略偏移。

這種方法可以理解為一種“短反饋訓(xùn)練、長過程演化”：每一步用低方差的下一局獎(jiǎng)勵(lì)學(xué)習(xí)，但記憶狀態(tài)本身跨輪保留，因此模型仍能學(xué)會(huì)逐步積累和修正證據(jù)。

五、三層記憶：從觀察到信念，再到行動(dòng)

僅有強(qiáng)化學(xué)習(xí)目標(biāo)仍不夠。文本記憶的動(dòng)作空間極大，如果完全自由生成，模型可能寫出冗長復(fù)盤、模糊判斷或不便執(zhí)行的建議。MEMOPILOT 為記憶規(guī)定了三層結(jié)構(gòu)。

5.1 識別層

識別層分析最近軌跡中的證據(jù)，判斷上一輪策略為何成功或失敗，并更新關(guān)于對手的假設(shè)。它關(guān)注“看到了什么”和“這些現(xiàn)象說明什么”，承擔(dān)診斷功能。

5.2 維護(hù)層

維護(hù)層保存跨輪信念狀態(tài)。每條模式不僅記錄內(nèi)容，還標(biāo)注“假設(shè)、已驗(yàn)證、已確認(rèn)”等狀態(tài)，附帶觀察次數(shù)、成功次數(shù)和證據(jù)來源。在固定 512 token 的記憶預(yù)算內(nèi)，這一層需要主動(dòng)保留有價(jià)值信息、合并重復(fù)信息并淘汰失效判斷。

5.3 指導(dǎo)層

指導(dǎo)層把上面的分析壓縮成簡潔、可執(zhí)行的規(guī)則，并且只有這一部分會(huì)交給凍結(jié)玩家。換言之，玩家無需閱讀完整推理和知識庫，只接收下一局應(yīng)該如何行動(dòng)的策略提示。

三層設(shè)計(jì)把“面向記憶模型的內(nèi)部狀態(tài)”和“面向玩家模型的控制指令”分離開來。識別層允許展開分析，維護(hù)層保證長期一致性，指導(dǎo)層則降低玩家的認(rèn)知負(fù)擔(dān)。這也是 MEMOPILOT 超越簡單歷史拼接的重要原因：原始軌跡包含信息，但并未替玩家完成從證據(jù)到行動(dòng)的轉(zhuǎn)換。

六、可控對手池與嚴(yán)格評測設(shè)置

作者構(gòu)建了 32 個(gè)訓(xùn)練 RPS 策略、45 個(gè)訓(xùn)練 LHE 策略，以及 41 個(gè)留出策略，其中包括 32 個(gè) RPS 和 9 個(gè) LHE 測試對手。對手不是黑盒模型，而是由可執(zhí)行自然語言指令定義，例如固定序列、根據(jù)上一步反應(yīng)的規(guī)則、帶條件觸發(fā)的組合模式，以及撲克中的跟注站、特定街激進(jìn)、延遲偷池和河牌詐唬等。

對手構(gòu)建遵循“人類種子策略、LLM 擴(kuò)寫與標(biāo)準(zhǔn)化、人工復(fù)核和試運(yùn)行”的流程。訓(xùn)練集與測試集按機(jī)制劃分，而非僅隨機(jī)拆分文字描述。留出對手會(huì)保留相近戰(zhàn)略意圖，但改變觸發(fā)條件、暴露信息的階段或規(guī)則組合，因而能夠測試記憶模型是否真的學(xué)會(huì)維護(hù)與修正假設(shè)。

主要實(shí)驗(yàn)采用 Qwen2.5-14B-Instruct 作為凍結(jié)玩家和基礎(chǔ)記憶模型，并進(jìn)一步把訓(xùn)練好的 MEMOPILOT 零樣本接到 Qwen3-235B-A22B 玩家上。每種設(shè)置運(yùn)行 64 次并報(bào)告均值。每局跨局記憶預(yù)算統(tǒng)一限制為 512 token，以保證與各類基線公平比較。

基線包括無記憶、完整歷史、人類編寫反制策略，以及 Reflexion、ExpeL、MemoryBank、AWM、ReasoningBank 等方法；還包括由 Qwen2.5-14B、DeepSeek-V3.2 和 Gemini-3.0-Flash 直接根據(jù)提示更新記憶的強(qiáng)模型基線。

七、主要結(jié)果：凍結(jié)玩家也能快速變強(qiáng)

7.1 訓(xùn)練玩家上的表現(xiàn)

在 Qwen2.5-14B 玩家上，無記憶基線的 RPS@5 得分為 0.43，LHE@5 為 -1.36。使用同一個(gè) Qwen2.5-14B 通過提示詞更新記憶，只達(dá)到 0.21 和 -0.23；DeepSeek-V3.2 記憶模型取得 1.64 和 -0.78。這說明更強(qiáng)語言模型生成的反思不等于有效的在線學(xué)習(xí)策略。

MEMOPILOT 則達(dá)到 3.28 和 2.03，相對強(qiáng)基線分別提升 3.10 和 2.30。尤其在德州撲克中，它把原本為負(fù)的平均收益轉(zhuǎn)為顯著正收益。

7.2 向更強(qiáng)玩家零樣本遷移

將訓(xùn)練好的記憶模型直接接入 Qwen3-235B-A22B，不進(jìn)行任何再訓(xùn)練，MEMOPILOT 在 RPS 和 LHE 上仍取得 3.27 和 1.31。這說明它沒有僅僅記住 Qwen2.5-14B 的措辭習(xí)慣，而是學(xué)會(huì)生成更一般的、可被不同玩家執(zhí)行的策略指導(dǎo)。

7.3 Elo 排名

在所有留出對手的綜合排名中，MEMOPILOT 在 LHE 上獲得 1762 Elo，在 RPS 上獲得 1590 Elo，兩項(xiàng)均排名第一。完整歷史輸入反而經(jīng)常落后，表明更多上下文并不自動(dòng)帶來更強(qiáng)適應(yīng)能力；未經(jīng)篩選的歷史會(huì)稀釋關(guān)鍵規(guī)律，并提高玩家模型的推理負(fù)擔(dān)。

值得注意的是，MEMOPILOT 的優(yōu)勢會(huì)隨游戲推進(jìn)迅速出現(xiàn)。這正是測試時(shí)學(xué)習(xí)應(yīng)具備的特征：系統(tǒng)不是靠訓(xùn)練集平均性能取勝，而是在面對一個(gè)此前未見的具體對手時(shí)，通過少量交互識別其模式并形成針對性策略。

八、從游戲遷移到真實(shí)任務(wù)

為了檢驗(yàn)方法是否只適用于博弈，作者進(jìn)一步在 StreamBench 上評估 CoSQL 和 DS-1000。前者要求連續(xù)處理上下文相關(guān)的文本到 SQL 查詢，后者涉及數(shù)據(jù)科學(xué)代碼生成；兩者都需要從此前任務(wù)的反饋中積累可復(fù)用經(jīng)驗(yàn)。

在 CoSQL 上，無記憶、完整歷史、DeepSeek-V3.2 記憶和 Qwen2.5-14B 記憶的結(jié)果分別為 69.5%、70.0%、67.5% 和 66.0%，MEMOPILOT 達(dá)到 73.5%。

在 DS-1000 上，對應(yīng)結(jié)果為 50.0%、52.5%、50.0% 和 48.8%，MEMOPILOT 達(dá)到 56.3%。這兩組結(jié)果尤其有啟發(fā)性：通用大模型的提示式總結(jié)可能刪除真正重要的失敗條件，甚至讓后續(xù)表現(xiàn)下降；經(jīng)過獎(jiǎng)勵(lì)訓(xùn)練的記憶則更傾向于保留能改變下一次行動(dòng)的信息。

九、關(guān)鍵分析：什么樣的記憶真正有效

9.1 “知道對手策略”仍不等于“會(huì)反制”

作者直接把真實(shí)對手策略描述交給玩家，RPS 和 LHE 得分只有 0.75 和 -0.48；由人類專家編寫反制策略后，提升到 1.00 和 1.08；MEMOPILOT 則達(dá)到 3.28 和 2.07。

這個(gè)結(jié)果說明，事實(shí)正確性只是有用記憶的必要條件之一。玩家還需要把事實(shí)轉(zhuǎn)化為具體動(dòng)作規(guī)則，并針對自身能力、環(huán)境約束和決策時(shí)機(jī)進(jìn)行表達(dá)。MEMOPILOT 的訓(xùn)練目標(biāo)正是獎(jiǎng)勵(lì)這種“可執(zhí)行性”。

當(dāng)作者讓 DeepSeek-V3.2 在不改變邏輯和數(shù)字的前提下，把 MEMOPILOT 記憶改寫成更自然的專業(yè)英語，成績從 3.28/2.07 降至 3.12/1.65。內(nèi)容大體不變，表現(xiàn)仍發(fā)生下降，說明記憶的措辭、結(jié)構(gòu)和指令強(qiáng)度也是智能體控制接口的一部分。

9.2 強(qiáng)化學(xué)習(xí)和結(jié)構(gòu)化記憶缺一不可

在 LHE 上，無記憶得分為 -1.36，完整歷史為 -1.22；僅使用三層提示結(jié)構(gòu)但不訓(xùn)練，可提升到 -0.23。采用強(qiáng)化學(xué)習(xí)但允許自由格式生成，得分達(dá)到 1.04；三層結(jié)構(gòu)與強(qiáng)化學(xué)習(xí)結(jié)合后進(jìn)一步達(dá)到 2.03。

因此，結(jié)構(gòu)化提示提供了有效歸納偏置，幫助模型分離診斷、狀態(tài)維護(hù)和行動(dòng)指導(dǎo)；強(qiáng)化學(xué)習(xí)則讓這些內(nèi)容與實(shí)際收益對齊。結(jié)構(gòu)不能替代優(yōu)化，優(yōu)化也會(huì)受益于合適的文本狀態(tài)空間。

9.3 更長訓(xùn)練時(shí)程帶來更穩(wěn)定的后期收益

作者比較兩輪和五輪訓(xùn)練。兩輪訓(xùn)練能夠?qū)W習(xí)快速反應(yīng)，但五輪訓(xùn)練在十局評測中表現(xiàn)更穩(wěn)定，并在后期持續(xù)獲得更高累計(jì)收益。這說明多輪訓(xùn)練不僅讓模型學(xué)會(huì)寫一條好建議，還讓它學(xué)會(huì)何時(shí)堅(jiān)持已有判斷、何時(shí)因新證據(jù)調(diào)整信念。

9.4 熱啟動(dòng)記憶可以遷移，但必須允許修正

面對對手 B 時(shí)，冷啟動(dòng) MEMOPILOT 在 RPS/LHE 上得到 3.28/2.03；先與另一個(gè)對手 A 交互再切換到 B，結(jié)果為 2.56/3.26；先與 B 交互后繼續(xù)面對 B，則達(dá)到 5.22/3.58。

同一對手的已有記憶顯著提高后續(xù)表現(xiàn)，證明系統(tǒng)確實(shí)積累了針對性知識。跨對手切換后仍保持較強(qiáng)收益，則表明記憶模型能夠覆蓋舊信念并重新適應(yīng)，而不是簡單追加不可修改的經(jīng)驗(yàn)條目。

9.5 單步獎(jiǎng)勵(lì)比累計(jì)獎(jiǎng)勵(lì)更穩(wěn)定

在 LHE 中，使用長時(shí)程累計(jì)獎(jiǎng)勵(lì)訓(xùn)練只得到 0.61，而使用下一局單步獎(jiǎng)勵(lì)達(dá)到 2.03。撲克的發(fā)牌隨機(jī)性會(huì)讓遠(yuǎn)期回報(bào)成為高噪聲監(jiān)督，單步代理獎(jiǎng)勵(lì)雖然更局部，卻提供了更可靠的因果信號。

十、局限與失敗模式

10.1 非平穩(wěn)對手會(huì)造成記憶滯后

MEMOPILOT 的主要困難來自“維護(hù)”和“修正”的矛盾。穩(wěn)定環(huán)境中，保留已確認(rèn)規(guī)律能減少無謂波動(dòng)；但當(dāng)對手頻繁改變策略時(shí)，舊記憶會(huì)成為負(fù)擔(dān)。

LHE 實(shí)驗(yàn)中，面對固定對手時(shí)得分為 2.03；每五局切換一次對手降至 1.76；每兩局切換一次進(jìn)一步降至 1.21；面對同樣擁有記憶、能夠主動(dòng)適應(yīng)的對手時(shí)為 1.25。變化速度越快，系統(tǒng)越難在有限證據(jù)下判斷當(dāng)前異常是隨機(jī)波動(dòng)還是策略已經(jīng)改變。

未來可以引入顯式變化點(diǎn)檢測、記憶時(shí)間戳、假設(shè)衰減和多時(shí)間尺度狀態(tài)：短期層快速響應(yīng)新跡象，長期層保存經(jīng)過充分驗(yàn)證的規(guī)律，并由門控機(jī)制決定何時(shí)覆蓋。

10.2 依賴可觀測獎(jiǎng)勵(lì)和重復(fù)經(jīng)驗(yàn)

該方法需要多次相關(guān)交互以及能夠評價(jià)結(jié)果的獎(jiǎng)勵(lì)。如果任務(wù)只有一次機(jī)會(huì)、反饋極度延遲，或者獎(jiǎng)勵(lì)無法反映真實(shí)目標(biāo)，就難以構(gòu)造穩(wěn)定訓(xùn)練信號。現(xiàn)實(shí)系統(tǒng)還可能存在多目標(biāo)沖突，例如正確率、成本、延遲和安全性必須同時(shí)權(quán)衡。

10.3 固定文本預(yù)算可能丟失長期信息

實(shí)驗(yàn)將記憶限制為 512 token，這有利于公平比較和高效推理，但更長任務(wù)會(huì)要求分層壓縮、檢索和遺忘機(jī)制。僅靠單塊文本不斷改寫，可能錯(cuò)誤刪除罕見卻關(guān)鍵的邊界條件。

10.4 游戲環(huán)境與開放世界仍有距離

可控對手池提供了清晰因果分析，但真實(shí)用戶、網(wǎng)頁、軟件工具和多智能體環(huán)境更加開放。觀察噪聲、目標(biāo)漂移、工具故障和反饋偏差會(huì)同時(shí)出現(xiàn)。StreamBench 結(jié)果證明了一定遷移潛力，但還不足以代表長周期生產(chǎn)環(huán)境。

十一、研究啟示

MEMOPILOT 最重要的貢獻(xiàn)，不是提出了又一種記憶提示模板，而是改變了記憶系統(tǒng)的訓(xùn)練對象和評價(jià)標(biāo)準(zhǔn)。

過去，記憶通常被當(dāng)作存儲層：系統(tǒng)關(guān)注寫入什么、如何檢索、如何壓縮。本文則把記憶更新視為一種策略，記憶文本是影響未來行動(dòng)的控制信號。評價(jià)一段記憶時(shí)，不應(yīng)只問它是否忠實(shí)、清晰和完整，還要問它是否讓下游智能體在下一次交互中采取了更好的動(dòng)作。

這一視角對通用智能體系統(tǒng)有幾方面價(jià)值。

模塊化升級
：凍結(jié)主模型，只訓(xùn)練記憶副駕駛，可以低成本適配多個(gè)玩家或工具智能體。
行為對齊
：通過真實(shí)任務(wù)收益訓(xùn)練記憶，減少“反思文本很漂亮、行動(dòng)卻沒有改善”的問題。
持續(xù)學(xué)習(xí)
：顯式信念狀態(tài)使系統(tǒng)能夠累積證據(jù)、記錄置信度并修正舊結(jié)論。
可解釋控制
：文本記憶保留了可審查接口，開發(fā)者可以看到系統(tǒng)如何從觀察推導(dǎo)策略。
新的優(yōu)化邊界
：模型參數(shù)之外，提示詞、記憶、工具調(diào)用計(jì)劃和上下文組織都可以成為強(qiáng)化學(xué)習(xí)的動(dòng)作空間。

對實(shí)際工程而言，一個(gè)值得借鑒的最小方案是：將長期交互壓縮為“證據(jù)、當(dāng)前假設(shè)、驗(yàn)證狀態(tài)、下一步行動(dòng)規(guī)則”四類信息；用下一次任務(wù)的可測結(jié)果評價(jià)更新質(zhì)量；把內(nèi)部分析和給執(zhí)行模型的指令分離；在環(huán)境變化時(shí)顯式降低舊假設(shè)置信度。即便不立即進(jìn)行完整 RL 訓(xùn)練，這些原則也能改善現(xiàn)有記憶管線。

十二、總結(jié)

MEMOPILOT 提出了一條清晰路線：讓凍結(jié) LLM 智能體在測試時(shí)持續(xù)變強(qiáng)，不一定要在線修改主模型參數(shù)，也不應(yīng)只依賴人工編寫的反思規(guī)則；可以訓(xùn)練一個(gè)獨(dú)立記憶模型，把每次交互轉(zhuǎn)化為經(jīng)過驗(yàn)證、可維護(hù)、可執(zhí)行的策略狀態(tài)。

多輪 MDP 建模解決了記憶演化問題，下一局代理獎(jiǎng)勵(lì)和按輪 GRPO 提供了低方差信用分配，三層記憶結(jié)構(gòu)則把診斷、信念維護(hù)與行動(dòng)指導(dǎo)分開。其在 RPS、LHE、CoSQL 和 DS-1000 上的結(jié)果共同說明：真正有效的智能體記憶，不只是過去發(fā)生了什么的摘要，而是面向未來決策、能夠隨著證據(jù)持續(xù)修正的控制策略。

論文地址：https://arxiv.org/abs/2606.08656

0人收藏

相關(guān)文章

專題

ICML：國際機(jī)器學(xué)習(xí)會(huì)議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章