0
| 本文作者: 鄭佳美 | 2026-06-22 10:58 |

作者丨鄭佳美
編輯丨馬曉寧
剛剛,Anthropic 給 Claude Code 發(fā)了一次看起來并不起眼的更新。沒有新模型,沒有新的 benchmark,也沒有代碼能力提升多少的宣傳。
Claude Code 2.1.179 的 changelog 里,主要是一些細(xì)碎的 bug fix:連接中斷后保留 partial response,工具執(zhí)行的 spinner 不再卡住,Linux sandbox 里的 denyRead / allowRead glob 不再把 Bash tool description 撐到巨大,遠(yuǎn)程 session 里的后臺(tái)任務(wù)也不會(huì)在多個(gè) turn 之間一直顯示 still running。
如果只看字面,這些都像是產(chǎn)品使用過程中的小毛病。但放在 AI 編程產(chǎn)品的演進(jìn)里,它們其實(shí)指向同一個(gè)變化:Claude Code 這樣一類 coding agent,已經(jīng)不只是“幫你寫代碼的聊天框”,而是在變成一個(gè)真正替你執(zhí)行任務(wù)的系統(tǒng)。雷峰網(wǎng)
過去我們討論 AI 編程產(chǎn)品,最常看的還是模型能力。誰的代碼生成更強(qiáng),誰能理解更長的上下文,誰在 SWE-bench 上拿到更高分,誰能一次性給出更完整的修復(fù)方案。
這些當(dāng)然重要,但它們主要回答的是一個(gè)問題:模型夠不夠聰明。而 Claude Code 這次修的幾個(gè)問題,回答的是另一個(gè)問題:當(dāng)模型真的開始替用戶干活,外層系統(tǒng)能不能穩(wěn)定地把這件事做完。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


01
傳統(tǒng)聊天機(jī)器人主要是在“回答”。用戶問一句,它回一句。即使回答中途斷了,或者內(nèi)容不夠完整,通常也只是重新生成一次。
但 coding agent 面對的是另一種任務(wù)。用戶不是問“這段代碼是什么意思”,而是讓它“幫我修這個(gè) bug”“跑一下測試”“把這個(gè)模塊重構(gòu)掉”“看看為什么 CI 失敗了”。這時(shí) Agent 要做的事情就不只是生成文字,而是要讀文件、理解項(xiàng)目結(jié)構(gòu)、調(diào)用工具、修改代碼、執(zhí)行命令、分析報(bào)錯(cuò),再繼續(xù)修復(fù)。
也就是說,用戶交給它的不再是一個(gè)問題,而是一段真實(shí)的開發(fā)流程。一旦進(jìn)入這個(gè)階段,產(chǎn)品要解決的問題就變了。模型會(huì)不會(huì)寫代碼,仍然重要;但連接會(huì)不會(huì)斷、工具會(huì)不會(huì)卡、權(quán)限會(huì)不會(huì)沖突、后臺(tái)任務(wù)狀態(tài)準(zhǔn)不準(zhǔn),也會(huì)直接決定任務(wù)能不能完成。
這就是 Claude Code 這次更新真正暴露出來的變化:AI 編程產(chǎn)品的競爭,正在從“模型會(huì)不會(huì)寫代碼”,轉(zhuǎn)向“Agent 能不能穩(wěn)定地完成任務(wù)”。
連接中斷,是這次更新里最容易理解的一個(gè)問題。對普通聊天產(chǎn)品來說,中途斷了,最多是回答沒有顯示完整。用戶刷新一下,重新問一遍,通常就能繼續(xù)。
但對 coding agent 來說,中途斷掉就麻煩得多。因?yàn)樵跀嚅_之前,Agent 可能已經(jīng)讀了幾十個(gè)文件,調(diào)用了幾次工具,改了一部分代碼,甚至已經(jīng)跑過測試。這個(gè)時(shí)候,系統(tǒng)必須知道:哪些內(nèi)容已經(jīng)返回給用戶,哪些工具已經(jīng)真正執(zhí)行,哪些文件已經(jīng)被修改,哪些動(dòng)作只是模型準(zhǔn)備做但還沒有發(fā)生。
如果這些狀態(tài)沒有被保存下來,恢復(fù)就會(huì)變得很尷尬。Agent 可能不知道該從哪里繼續(xù),也可能重復(fù)執(zhí)行已經(jīng)做過的操作。對于一個(gè)真正會(huì)改代碼、跑命令的產(chǎn)品來說,這不是簡單的網(wǎng)絡(luò)問題,而是任務(wù)現(xiàn)場有沒有被保住的問題。
所以,Claude Code 修復(fù) mid-stream connection drops,并保留 partial response,本質(zhì)上是在補(bǔ)一件事:讓任務(wù)中途出問題后,用戶不至于完全丟掉進(jìn)度。
這也是 coding agent 和普通聊天機(jī)器人的關(guān)鍵差別。聊天機(jī)器人主要處理文本,文本斷了可以重來;Agent 處理的是任務(wù),任務(wù)斷了就要恢復(fù)現(xiàn)場。
另一個(gè)問題是工具執(zhí)行狀態(tài)。Claude Code 這次修復(fù)了 spinner 卡在 “running tool” 的問題。表面上看,這像是一個(gè)很小的前端顯示問題。但在 Agent 產(chǎn)品里,它其實(shí)很關(guān)鍵。
因?yàn)?Agent 調(diào)用工具,不是“說一句我要調(diào)用工具”那么簡單,而是在真實(shí)執(zhí)行環(huán)境里做動(dòng)作。它可能是在讀取文件,可能是在跑 Bash,可能是在執(zhí)行測試,也可能是在遠(yuǎn)程 session 里等待結(jié)果。
用戶看到 “running tool” 的時(shí)候,真正想知道的是:它到底還在不在做事?工具有沒有啟動(dòng)?運(yùn)行到哪一步?是不是已經(jīng)失敗了?能不能取消?如果失敗了,錯(cuò)誤有沒有返回給模型?如果已經(jīng)結(jié)束了,為什么界面還顯示正在運(yùn)行?
這些狀態(tài)如果說不清楚,用戶就會(huì)失去控制感。它看起來像是在工作,但用戶不知道它是在思考、在等待、在卡死,還是已經(jīng)出錯(cuò)。
對 AI 編程產(chǎn)品來說,這種不確定性會(huì)非常影響信任。因?yàn)橛脩粢坏┌讶蝿?wù)交給 Agent,就需要知道它現(xiàn)在到底在做什么。如果系統(tǒng)連工具調(diào)用狀態(tài)都無法準(zhǔn)確展示,用戶就很難放心讓它處理更長、更復(fù)雜的任務(wù)。
所以,工具 spinner 卡住不是一個(gè)孤立的小 bug。它背后是一個(gè)更大的問題:Agent 不僅要能調(diào)用工具,還要能追蹤工具、解釋狀態(tài),并在工具失敗時(shí)把任務(wù)帶回可控狀態(tài)。

02
換個(gè)角度看,這次 changelog 里最有工程含義的一條,是 Linux sandbox 里的 denyRead / allowRead glob 掃過大目錄樹后,會(huì)把 Bash tool description 撐得很大,最后讓 session 不可用。
這句話看起來有點(diǎn)技術(shù),但換成人話就是:為了限制 Agent 能讀哪些文件、不能讀哪些文件,系統(tǒng)會(huì)給它一套權(quán)限規(guī)則。可是當(dāng)這些規(guī)則太細(xì)、太多,并且被展開進(jìn)工具說明里時(shí),它們本身就會(huì)變成負(fù)擔(dān)。
Agent 當(dāng)然需要權(quán)限系統(tǒng)。尤其是 coding agent,它面對的是用戶真實(shí)的代碼倉庫。倉庫里可能有密鑰、配置文件、內(nèi)部邏輯和敏感數(shù)據(jù)。系統(tǒng)必須限制 Agent 能看什么、能改什么、能執(zhí)行什么。
但問題在于,權(quán)限規(guī)則不是免費(fèi)的。為了讓模型知道自己能做什么、不能做什么,這些規(guī)則往往會(huì)以某種形式進(jìn)入上下文,或者進(jìn)入工具描述里。規(guī)則越細(xì),說明越長;說明越長,就越占上下文;上下文越重,token 成本越高,模型處理任務(wù)時(shí)也越容易被干擾。
這次 denyRead / allowRead glob 把 Bash tool description 撐得巨大,就是這個(gè)矛盾的一個(gè)縮影。
安全規(guī)則本來是為了讓 Agent 更可控,但如果表達(dá)方式處理不好,它反而會(huì)拖慢甚至拖垮整個(gè)任務(wù)。模型還沒開始解決代碼問題,就先被大量路徑、權(quán)限信息和工具說明擠占了空間。嚴(yán)重時(shí),整個(gè) session 都會(huì)不可用。
這說明 Agent 安全不能只是簡單地“加限制”。它還要考慮這些限制怎么表達(dá),哪些信息需要給模型看,哪些應(yīng)該留在系統(tǒng)底層執(zhí)行,怎么在安全、成本和可用性之間做平衡。
Agent 越能干,權(quán)限邊界就越重要;權(quán)限越細(xì),規(guī)則管理就越復(fù)雜;規(guī)則越復(fù)雜,就越容易影響上下文和執(zhí)行效率。這會(huì)成為 AI 編程產(chǎn)品越來越繞不開的問題。
除此之外,Claude Code 這次還修復(fù)了 remote session background tasks 在多個(gè) turn 之間一直顯示 “still running” 的問題。
這條修復(fù)說明,coding agent 已經(jīng)不只是同步問答了。早期 AI 助手的交互很簡單:用戶問一句,模型答一句。即使中間調(diào)用工具,通常也發(fā)生在一次對話里。
但現(xiàn)在的 coding agent 不一樣。它可能在遠(yuǎn)程環(huán)境里跑測試,等待命令返回,讀取日志,繼續(xù)修復(fù)錯(cuò)誤,甚至讓子 Agent 并行處理不同任務(wù)。
這時(shí)候,一個(gè)任務(wù)就不一定和一次對話綁定了。它可能跨多個(gè) turn,也可能在用戶暫時(shí)離開后繼續(xù)運(yùn)行。一旦進(jìn)入這種模式,系統(tǒng)就必須清楚地記錄每個(gè)后臺(tái)任務(wù)的狀態(tài):什么時(shí)候開始,什么時(shí)候結(jié)束,是否失敗,能不能取消,結(jié)果有沒有同步回來,下一輪對話能不能繼續(xù)接上。
如果任務(wù)實(shí)際上已經(jīng)結(jié)束,但界面還顯示 “still running”,用戶就不知道該繼續(xù)等,還是該取消,還是該重新發(fā)起。更麻煩的是,如果任務(wù)已經(jīng)失敗但狀態(tài)沒有更新,Agent 可能會(huì)在錯(cuò)誤的前提下繼續(xù)行動(dòng)。
所以,這不是簡單的顯示問題,而是任務(wù)管理問題。當(dāng) coding agent 開始處理更長的任務(wù),它就需要更像一個(gè)任務(wù)系統(tǒng):能啟動(dòng)任務(wù),追蹤任務(wù),恢復(fù)任務(wù),結(jié)束任務(wù),并把狀態(tài)清楚地告訴用戶。

03
不過這些問題在 demo 階段不會(huì)特別明顯。因?yàn)?demo 往往是短任務(wù)、單工具、單輪交互。只要模型回答得像樣,看起來就足夠驚艷。
但真實(shí)開發(fā)工作不是這樣。真實(shí)開發(fā)任務(wù)會(huì)更長,環(huán)境會(huì)更復(fù)雜,代碼倉庫會(huì)更大,權(quán)限會(huì)更多,測試會(huì)失敗,工具會(huì)超時(shí),網(wǎng)絡(luò)會(huì)斷,用戶也可能中途切走。Agent 如果要進(jìn)入這樣的工作流,就必須處理這些不穩(wěn)定因素。
這也是 AI 編程產(chǎn)品正在發(fā)生的變化。 第一階段,產(chǎn)品拼的是模型能力。誰能寫出更好的代碼,誰能理解更大的上下文,誰能在 benchmark 上拿到更高分。
但下一階段,產(chǎn)品還要拼執(zhí)行穩(wěn)定性。也就是:Agent 能不能持續(xù)干活,能不能處理失敗,能不能讓用戶看懂它在做什么,能不能在權(quán)限受控的情況下完成任務(wù),能不能在長時(shí)間運(yùn)行后不丟狀態(tài)。
模型仍然重要。沒有強(qiáng)模型,Agent 不可能完成復(fù)雜開發(fā)任務(wù)。但只有模型已經(jīng)不夠了。真正進(jìn)入開發(fā)者日常工作流的產(chǎn)品,必須有一套可靠的 runtime 來支撐模型。
這套 runtime 包括上下文管理、工具調(diào)用、權(quán)限控制、沙箱、遠(yuǎn)程 session、后臺(tái)任務(wù)、錯(cuò)誤恢復(fù)和可觀測性。它們看起來不像模型發(fā)布那樣容易傳播,也很少有一個(gè)漂亮的分?jǐn)?shù),但它們決定了用戶是否真的敢把任務(wù)交給 Agent。
整體來看,Claude Code 2.1.179 沒有發(fā)布一個(gè)更強(qiáng)的 Claude,也沒有宣布新的 AI 編程能力。但這些小修復(fù)說明,coding agent 的競爭已經(jīng)進(jìn)入了更現(xiàn)實(shí)的階段:模型要能想,系統(tǒng)也要能做;模型要生成計(jì)劃,runtime 要負(fù)責(zé)把計(jì)劃穩(wěn)定地執(zhí)行下去。
未來的 AI 編程產(chǎn)品,不會(huì)只比誰更聰明,還會(huì)比誰更可靠。誰能更好地處理中斷、工具狀態(tài)、權(quán)限邊界、后臺(tái)任務(wù)和上下文成本,誰就更可能把 Agent 從演示產(chǎn)品變成真正的開發(fā)工具。
參考鏈接:
https://code.claude.com/docs/en/changelog
上車,帶你看遍全球 AI 頂會(huì)精華
可獨(dú)家暢覽:
專家演講PPT
大會(huì)報(bào)告全文
熱門論文解讀
學(xué)術(shù)新星訪談

掃描上方二維碼
或點(diǎn)擊「閱讀原文」關(guān)注專區(qū)。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。