0
| 本文作者: 高景輝 | 2026-06-15 21:44 | 專題:ICRA 國際機器人與自動化會議 |

作者丨高景輝
編輯丨馬曉寧
當全球具身智能公司都在ICRA 2026的展臺上比拼 DEMO 時,一個棘手的問題卻被眾人所忽視:機器人至今沒有一雙真正好用的眼睛。
這是整個行業(yè)心照不宣的卡點。所有人都在說大模型、VLA帶來了通用智能的曙光,但落地時卻卡在了最原始的環(huán)節(jié)——機器人看不準三維世界,做不了精細操作,速度永遠趕不上人類。為了彌補傳感器的缺陷,解決制約物理AI的卡點,公司們不得不投入大量資源搭建仿真環(huán)境、采集標注數(shù)據(jù),用算法去“猜”深度……本質(zhì)上是在用軟件填硬件的坑。
在這一背景下,速騰聚創(chuàng)副總裁楊先聲在 ICRA 做了一場學(xué)術(shù)匯報,展示了一套面向機器人的全新視覺感知架構(gòu)。與行業(yè)普遍采用的“先分別采集、后算法融合”不同,這套架構(gòu)在物理層面就實現(xiàn)了深度探測與RGB的天然對齊,深度信息與顏色信息無需后期校準,直接輸出給后端。
在楊先聲看來,這才是解決機器人感知問題的根本路徑。但這一新架構(gòu)究竟要如何打破傳統(tǒng)3D相機“穩(wěn)定、距離、精度”的不可能三角?從雷峰網(wǎng)(公眾號:雷峰網(wǎng))·AI科技評論在 ICRA 現(xiàn)場與楊先聲的對話中,我們或許可以找到答案。

▎AI科技評論:速騰在ICRA帶來了新的視覺感知架構(gòu),可以簡單透露下嗎?
楊先聲:新的架構(gòu)和之前相比,最大不同在于原始數(shù)據(jù)底層就已經(jīng)融合好了,所以在物理層面上,它的深度信息和顏色信息是天然對齊,不需要后期算法去處理。所以這個架構(gòu)在精度、可靠性上,包括成本、性能,各方面都是比之前的方案要好,會大幅提升機器人訓(xùn)練數(shù)據(jù)的質(zhì)量和實時感知能力,將會大大加速物理AI的進化。
▎AI科技評論:現(xiàn)在機器人在感知方面的痛點是什么?
楊先聲:你可以看到所有機器人現(xiàn)在做一些很精細的活,但它速度很慢,遠遠達不到人類效率。其中主要的卡點在于感知能力,而感知能力在物理層面上是有限制的,更何況機器人在開放環(huán)境需要實時的感知決策,所以難度很大。
當然,用一個簡單的傳感器也能做到高智能,但這對其他技術(shù)的要求會高很多。而如果機器人對世界有清晰的感知,再做一些控制或者其他的決策就容易多了。否則就會花很多精力去做訓(xùn)練,做試錯,讓它慢慢慢慢的收斂,還要使它可控。所以我們關(guān)注的第一步就是先解決機器人的感知。
▎AI科技評論:相當于你們在感知層面給了機器人更高的起點,后面做其他環(huán)節(jié)就可以更加簡單?
楊先聲:對,這個可以分兩個層面,機器人相比于自動駕駛更復(fù)雜,不光是維度更高,從一個平面會到立體空間,它面對的操作和環(huán)境也是千變?nèi)f化的。而且它是有接觸的,但車不需要接觸障礙物。人能完成操作,是因為人的感知力很強,不僅有觸覺,還有力覺,甚至還有那種接觸覺,這種復(fù)合的空間立體感知能力可以準確感知周圍事物空間位置的變化。
但目前機器人的眼睛現(xiàn)在其實并不準,大大限制了它的泛化能力。而我們現(xiàn)在做是,先解決他能感知環(huán)境的能力。現(xiàn)在機器人需要大量數(shù)據(jù)去幫助它在環(huán)境中訓(xùn)練,把真實世界的環(huán)境輸入進去,這一步就很難了,因為把真實環(huán)境照搬仿真環(huán)境里的工作量非常大,對于很多公司是不現(xiàn)實的。
但如果三維空間傳感器足夠好,就能把完整的立體空間和色彩信息全部輸入給機器人和仿真環(huán)境,成本會大大降低,所以這是關(guān)鍵第一步。現(xiàn)在機器人缺乏高質(zhì)量的空間數(shù)據(jù),不只是激光雷達這種帶點云的,它還需要帶色彩紋理的RGB的信息,因此我們的傳感器應(yīng)運而生。
▎AI科技評論:您在報告里強調(diào)了“深度”,機器人對深度的感知是不是行業(yè)目前比較薄弱的環(huán)節(jié)?
楊先聲:對,激光雷達已經(jīng)是一個比較可靠的深度傳感器了,以自動駕駛為例,在大空間、長距離、車載環(huán)境上,一般每100米只有5厘米到10厘米深度誤差,對于車載是夠用的。但是對于機器人面對這種的復(fù)雜環(huán)境,需要到毫米級的深度感知。
目前能用的像雙目結(jié)構(gòu)光、ToF這種傳統(tǒng)3D相機,它們在很多環(huán)境都不穩(wěn)定,測距范圍也就是一米左右。
而且還有三個物理層面無法解決的缺陷:第一,這三種方案都屬于間接測量,能力被環(huán)境光變化限制;第二這三種方案的分辨率低,也都做不到RGBD的像素級對齊;第三,這三種方案都有CIS(圖像傳感器)的問題,存在無法克服的炫光、精度衰減等問題。這些方案都非常耗算力,在提升幀率、降低時延等影響機器人末端控制的關(guān)鍵技術(shù)點上很難做出有價值的突破。
所以,雖然大家都在用這些方案,但是都只在特定的環(huán)境當中用。而我們用激光雷達,如果能把這深度信息的精度解決,再把它的分辨率再提升,就可能是一個相對完美的傳感器。我們正奔著大家心目中理想的傳感器在演進,試圖打破穩(wěn)定、距離、精度的不可能三角。
▎AI科技評論:就視覺感知來說,從智駕到具身智能,哪些技術(shù)可以復(fù)用?
楊先聲:我們現(xiàn)在其實整個激光雷達底層的技術(shù),都已經(jīng)統(tǒng)一了,就是我們SPAD-SoC這套數(shù)字化架構(gòu)。只不過對于車載來說,我們更加專注于長距離、高分辨率、低成本,對機器人而言,我們關(guān)注近距離,高精度,小體積,低功耗,甚至要跟RGB做融合,這個其實跟體感技術(shù)是很類似的,但是我們把它最終產(chǎn)品形態(tài)上做了很大的區(qū)分。
▎AI科技評論:你們的技術(shù)路線有哪些獨特的優(yōu)勢?
楊先聲:我們的SPAD技術(shù)路線最大價值就是更高的集成度。原來SiPM可能做128線就已經(jīng)是旗艦產(chǎn)品了,但對于我們SPAD來說,做個幾百線,甚至上千線都是很容易的事情。這相當于是在性能層面已經(jīng)到了另外一個維度。所以今年友商其實都在跟進這個新的方向。在這個方向上,我們的芯片有兩年的代差優(yōu)勢。
▎AI科技評論:開發(fā)的壁壘在哪里?
楊先聲:我們現(xiàn)在是全棧自研的,就是從接收芯片,發(fā)射、驅(qū)動,甚至SOC全是自研的。所以從芯片設(shè)計,芯片的流片,再到整個系統(tǒng)架構(gòu),包括芯片的穩(wěn)定性和成本,系統(tǒng)的調(diào)通,系統(tǒng)優(yōu)化……這個整個全鏈路其實都是壁壘,我們也是花了很長時間才走通。
▎AI科技評論:我看到您有一個非常通俗的表達,就是說機器人不僅要看得見,還要看得遠、看得穩(wěn)、看得全,能不能介紹這三個分別對應(yīng)的技術(shù)問題是什么?
楊先聲:“看得見”意思是,現(xiàn)在傳統(tǒng)的這種機械式激光雷達分辨率很低,就是16線、32線階段,這個雷達只能做導(dǎo)航,用來做空間定位,其實它是看不清你身邊有什么東西,所以以前激光雷達的作用是非常有限的。
當我們推出這種幾百線、上千線的高線數(shù)的激光雷達之后,它就能把整個環(huán)境用三維的方式給還原出來,那這個時候就不只是用來做的定位導(dǎo)航,我們還可以做精細感知。
再然后,當我們在底層,把RGB融合進來后,空間環(huán)境感知的所有信息我們用一個傳感器就可以都解決。
▎AI科技評論:這種新的技術(shù)會不會對機器人數(shù)據(jù)采集的效率、質(zhì)量有所提升?
楊先聲:這是一定的,因為大部分數(shù)采公司找我們合作。他們遇到的問題是一樣的:視覺可以通過大量的數(shù)據(jù)訓(xùn)練去獲得一個比較好的成果,但是終歸它不是一個很穩(wěn)定、很魯棒的一個東西,所以它精度上限不高。
雖然未來機器人可以用視覺去完成大部分工作,因為這樣成本比較低,可以推廣,但是在早期做訓(xùn)練和研究的時候,不可能用視覺去做,而且數(shù)采本身就是為了拿這個數(shù)據(jù)作為基準去訓(xùn)練,所以它需要高質(zhì)量的數(shù)據(jù)。雖然很多人都用視覺做數(shù)采,但并不意味著真的能滿足客戶需求,我們其實已經(jīng)收到很多終端客戶的反饋,認為大部分的純視覺數(shù)據(jù)在質(zhì)量上難以滿足需求。我們今年接觸到很多這種做數(shù)采的客戶,都在想辦法去拿基于高精度的三維感知,去提升他們整體的數(shù)據(jù)質(zhì)量。
▎AI科技評論:隨著這種全新形態(tài)的RGB-D設(shè)備出現(xiàn),會不會增加端測處理信號的算力要求?
楊先聲:其實不會。雖然雙目設(shè)備很便宜,就兩個攝像頭,但是需要大量的算力把深度信息給反解算出來,所以很消耗算力。而我們這種RGB-D融合的方式,可以直接計算深度信息,直接把圖像信息和深度信息給到后端,沒有解析的過程,所以其實它反而大大節(jié)省了算力,還能提升幀率、降低延遲,對整個VLA性能和末端控制的提升都很有價值。
▎AI科技評論:隨著線數(shù)的增加,點云的密度在增加,處理的信號不會更多嗎?
楊先聲:對,但這個可以自己選擇,如果不需要這么密的深度信息,依然可以選擇低密度采樣的方式,但是無論如何,我們至少節(jié)省了客戶在后端計算的過程,提升了他們的效率,而且還節(jié)省了很多存儲的空間。
▎AI科技評論:很多具身公司是從智駕行業(yè)轉(zhuǎn)過來的,他們在選擇供應(yīng)商時會不會有路徑依賴?
楊先聲:其實會有這個趨勢。因為具身智能是比自動駕駛更高端的領(lǐng)域,技術(shù)維度也比智駕更高,它不僅包括感知、決策、規(guī)劃,還包括更高精度、更高維度的傳感器的這種設(shè)計和需求,更不用說后面的控制和感知的算法其實更加復(fù)雜。所以對大家而言,不管是我們作為上游的傳感器廠商,還是作為下游的這些機器人公司,他們都會一起來做,所以我覺得大家是共同在進步。
▎AI科技評論:未來3-5年機器人在感知方面最大的變數(shù)在哪里?
楊先聲:現(xiàn)在有兩大突破點,一是對環(huán)境的3D環(huán)境的感知,這是我們的優(yōu)勢。當我們這種新的RGBD方案成熟的話,那我覺得未來機器人在眼睛這個程度上,就會逐步收斂,就跟人一樣,有一雙眼睛就夠了。然后就是要把觸覺再逐步優(yōu)化,因為現(xiàn)在觸覺第一是貴,第二是它的可靠性、耐用性不夠,第三是成本太高。
▎AI科技評論:從技術(shù)原理的角度,觸覺會不會要比視覺更難達到新的高度?
楊先聲:對,因為視覺歸根結(jié)底還是個非接觸性傳感器,不會有太多的材料上面的問題。觸覺傳感器要實時跟環(huán)境有接觸,接觸會帶來摩擦,就會帶來可靠性的問題,甚至接觸不同的物體,對不同材質(zhì)啊、溫度都很敏感。一旦產(chǎn)生交互之后,所有的問題都會升級很多。
▎AI科技評論:對于純視覺的方案和激光雷達方案,企業(yè)在選擇上會有什么考慮?
楊先聲:我覺得機器人不存在所謂的純視覺概念,因為人類空間感知也都是立體視覺和三維感知的。因為所謂的純視覺沒辦法在這種復(fù)雜環(huán)境當中確保穩(wěn)定性,而操作一定需要很高精度的空間感知能力,所以所謂的純視覺沒辦法做到既高效又可靠的。
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網(wǎng)已全面上線【ICRA 2026 深度專區(qū)】。
專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會議動態(tài)。
掃描下方二維碼,或點擊「閱讀原文」關(guān)注專區(qū)。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章