對話速騰聚創(chuàng)楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026

本文作者：高景輝

2026-06-15 21:44

專題：ICRA 國際機器人與自動化會議

導(dǎo)語：機器人不僅要看得見，還要看得遠、看得穩(wěn)、看得全。

對話速騰聚創(chuàng)楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026

機器人不僅要看得見，還要看得遠、看得穩(wěn)、看得全。

作者丨高景輝

編輯丨馬曉寧

當全球具身智能公司都在ICRA 2026的展臺上比拼 DEMO 時，一個棘手的問題卻被眾人所忽視：機器人至今沒有一雙真正好用的眼睛。

這是整個行業(yè)心照不宣的卡點。所有人都在說大模型、VLA帶來了通用智能的曙光，但落地時卻卡在了最原始的環(huán)節(jié)——機器人看不準三維世界，做不了精細操作，速度永遠趕不上人類。為了彌補傳感器的缺陷，解決制約物理AI的卡點，公司們不得不投入大量資源搭建仿真環(huán)境、采集標注數(shù)據(jù)，用算法去“猜”深度……本質(zhì)上是在用軟件填硬件的坑。

在這一背景下，速騰聚創(chuàng)副總裁楊先聲在 ICRA 做了一場學(xué)術(shù)匯報，展示了一套面向機器人的全新視覺感知架構(gòu)。與行業(yè)普遍采用的“先分別采集、后算法融合”不同，這套架構(gòu)在物理層面就實現(xiàn)了深度探測與RGB的天然對齊，深度信息與顏色信息無需后期校準，直接輸出給后端。

在楊先聲看來，這才是解決機器人感知問題的根本路徑。但這一新架構(gòu)究竟要如何打破傳統(tǒng)3D相機“穩(wěn)定、距離、精度”的不可能三角？從雷峰網(wǎng)(公眾號：雷峰網(wǎng))·AI科技評論在 ICRA 現(xiàn)場與楊先聲的對話中，我們或許可以找到答案。

▎AI科技評論：速騰在ICRA帶來了新的視覺感知架構(gòu)，可以簡單透露下嗎？

楊先聲：新的架構(gòu)和之前相比，最大不同在于原始數(shù)據(jù)底層就已經(jīng)融合好了，所以在物理層面上，它的深度信息和顏色信息是天然對齊，不需要后期算法去處理。所以這個架構(gòu)在精度、可靠性上，包括成本、性能，各方面都是比之前的方案要好，會大幅提升機器人訓(xùn)練數(shù)據(jù)的質(zhì)量和實時感知能力，將會大大加速物理AI的進化。

▎AI科技評論：現(xiàn)在機器人在感知方面的痛點是什么？

楊先聲：你可以看到所有機器人現(xiàn)在做一些很精細的活，但它速度很慢，遠遠達不到人類效率。其中主要的卡點在于感知能力，而感知能力在物理層面上是有限制的，更何況機器人在開放環(huán)境需要實時的感知決策，所以難度很大。

當然，用一個簡單的傳感器也能做到高智能，但這對其他技術(shù)的要求會高很多。而如果機器人對世界有清晰的感知，再做一些控制或者其他的決策就容易多了。否則就會花很多精力去做訓(xùn)練，做試錯，讓它慢慢慢慢的收斂，還要使它可控。所以我們關(guān)注的第一步就是先解決機器人的感知。

▎AI科技評論：相當于你們在感知層面給了機器人更高的起點，后面做其他環(huán)節(jié)就可以更加簡單？

楊先聲：對，這個可以分兩個層面，機器人相比于自動駕駛更復(fù)雜，不光是維度更高，從一個平面會到立體空間，它面對的操作和環(huán)境也是千變?nèi)f化的。而且它是有接觸的，但車不需要接觸障礙物。人能完成操作，是因為人的感知力很強，不僅有觸覺，還有力覺，甚至還有那種接觸覺，這種復(fù)合的空間立體感知能力可以準確感知周圍事物空間位置的變化。

但目前機器人的眼睛現(xiàn)在其實并不準，大大限制了它的泛化能力。而我們現(xiàn)在做是，先解決他能感知環(huán)境的能力。現(xiàn)在機器人需要大量數(shù)據(jù)去幫助它在環(huán)境中訓(xùn)練，把真實世界的環(huán)境輸入進去，這一步就很難了，因為把真實環(huán)境照搬仿真環(huán)境里的工作量非常大，對于很多公司是不現(xiàn)實的。

但如果三維空間傳感器足夠好，就能把完整的立體空間和色彩信息全部輸入給機器人和仿真環(huán)境，成本會大大降低，所以這是關(guān)鍵第一步。現(xiàn)在機器人缺乏高質(zhì)量的空間數(shù)據(jù)，不只是激光雷達這種帶點云的，它還需要帶色彩紋理的RGB的信息，因此我們的傳感器應(yīng)運而生。

▎AI科技評論：您在報告里強調(diào)了“深度”，機器人對深度的感知是不是行業(yè)目前比較薄弱的環(huán)節(jié)？

楊先聲：對，激光雷達已經(jīng)是一個比較可靠的深度傳感器了，以自動駕駛為例，在大空間、長距離、車載環(huán)境上，一般每100米只有5厘米到10厘米深度誤差，對于車載是夠用的。但是對于機器人面對這種的復(fù)雜環(huán)境，需要到毫米級的深度感知。

目前能用的像雙目結(jié)構(gòu)光、ToF這種傳統(tǒng)3D相機，它們在很多環(huán)境都不穩(wěn)定，測距范圍也就是一米左右。

而且還有三個物理層面無法解決的缺陷：第一，這三種方案都屬于間接測量，能力被環(huán)境光變化限制；第二這三種方案的分辨率低，也都做不到RGBD的像素級對齊；第三，這三種方案都有CIS（圖像傳感器）的問題，存在無法克服的炫光、精度衰減等問題。這些方案都非常耗算力，在提升幀率、降低時延等影響機器人末端控制的關(guān)鍵技術(shù)點上很難做出有價值的突破。

所以，雖然大家都在用這些方案，但是都只在特定的環(huán)境當中用。而我們用激光雷達，如果能把這深度信息的精度解決，再把它的分辨率再提升，就可能是一個相對完美的傳感器。我們正奔著大家心目中理想的傳感器在演進，試圖打破穩(wěn)定、距離、精度的不可能三角。

▎AI科技評論：就視覺感知來說，從智駕到具身智能，哪些技術(shù)可以復(fù)用？

楊先聲：我們現(xiàn)在其實整個激光雷達底層的技術(shù)，都已經(jīng)統(tǒng)一了，就是我們SPAD-SoC這套數(shù)字化架構(gòu)。只不過對于車載來說，我們更加專注于長距離、高分辨率、低成本，對機器人而言，我們關(guān)注近距離，高精度，小體積，低功耗，甚至要跟RGB做融合，這個其實跟體感技術(shù)是很類似的，但是我們把它最終產(chǎn)品形態(tài)上做了很大的區(qū)分。

▎AI科技評論：你們的技術(shù)路線有哪些獨特的優(yōu)勢？

楊先聲：我們的SPAD技術(shù)路線最大價值就是更高的集成度。原來SiPM可能做128線就已經(jīng)是旗艦產(chǎn)品了，但對于我們SPAD來說，做個幾百線，甚至上千線都是很容易的事情。這相當于是在性能層面已經(jīng)到了另外一個維度。所以今年友商其實都在跟進這個新的方向。在這個方向上，我們的芯片有兩年的代差優(yōu)勢。

▎AI科技評論：開發(fā)的壁壘在哪里？

楊先聲：我們現(xiàn)在是全棧自研的，就是從接收芯片，發(fā)射、驅(qū)動，甚至SOC全是自研的。所以從芯片設(shè)計，芯片的流片，再到整個系統(tǒng)架構(gòu)，包括芯片的穩(wěn)定性和成本，系統(tǒng)的調(diào)通，系統(tǒng)優(yōu)化……這個整個全鏈路其實都是壁壘，我們也是花了很長時間才走通。

▎AI科技評論：我看到您有一個非常通俗的表達，就是說機器人不僅要看得見，還要看得遠、看得穩(wěn)、看得全，能不能介紹這三個分別對應(yīng)的技術(shù)問題是什么？

楊先聲：“看得見”意思是，現(xiàn)在傳統(tǒng)的這種機械式激光雷達分辨率很低，就是16線、32線階段，這個雷達只能做導(dǎo)航，用來做空間定位，其實它是看不清你身邊有什么東西，所以以前激光雷達的作用是非常有限的。

當我們推出這種幾百線、上千線的高線數(shù)的激光雷達之后，它就能把整個環(huán)境用三維的方式給還原出來，那這個時候就不只是用來做的定位導(dǎo)航，我們還可以做精細感知。

再然后，當我們在底層，把RGB融合進來后，空間環(huán)境感知的所有信息我們用一個傳感器就可以都解決。

▎AI科技評論：這種新的技術(shù)會不會對機器人數(shù)據(jù)采集的效率、質(zhì)量有所提升？

楊先聲：這是一定的，因為大部分數(shù)采公司找我們合作。他們遇到的問題是一樣的：視覺可以通過大量的數(shù)據(jù)訓(xùn)練去獲得一個比較好的成果，但是終歸它不是一個很穩(wěn)定、很魯棒的一個東西，所以它精度上限不高。

雖然未來機器人可以用視覺去完成大部分工作，因為這樣成本比較低，可以推廣，但是在早期做訓(xùn)練和研究的時候，不可能用視覺去做，而且數(shù)采本身就是為了拿這個數(shù)據(jù)作為基準去訓(xùn)練，所以它需要高質(zhì)量的數(shù)據(jù)。雖然很多人都用視覺做數(shù)采，但并不意味著真的能滿足客戶需求，我們其實已經(jīng)收到很多終端客戶的反饋，認為大部分的純視覺數(shù)據(jù)在質(zhì)量上難以滿足需求。我們今年接觸到很多這種做數(shù)采的客戶，都在想辦法去拿基于高精度的三維感知，去提升他們整體的數(shù)據(jù)質(zhì)量。

▎AI科技評論：隨著這種全新形態(tài)的RGB-D設(shè)備出現(xiàn)，會不會增加端測處理信號的算力要求？

楊先聲：其實不會。雖然雙目設(shè)備很便宜，就兩個攝像頭，但是需要大量的算力把深度信息給反解算出來，所以很消耗算力。而我們這種RGB-D融合的方式，可以直接計算深度信息，直接把圖像信息和深度信息給到后端，沒有解析的過程，所以其實它反而大大節(jié)省了算力，還能提升幀率、降低延遲，對整個VLA性能和末端控制的提升都很有價值。

▎AI科技評論：隨著線數(shù)的增加，點云的密度在增加，處理的信號不會更多嗎？

楊先聲：對，但這個可以自己選擇，如果不需要這么密的深度信息，依然可以選擇低密度采樣的方式，但是無論如何，我們至少節(jié)省了客戶在后端計算的過程，提升了他們的效率，而且還節(jié)省了很多存儲的空間。

▎AI科技評論：很多具身公司是從智駕行業(yè)轉(zhuǎn)過來的，他們在選擇供應(yīng)商時會不會有路徑依賴？

楊先聲：其實會有這個趨勢。因為具身智能是比自動駕駛更高端的領(lǐng)域，技術(shù)維度也比智駕更高，它不僅包括感知、決策、規(guī)劃，還包括更高精度、更高維度的傳感器的這種設(shè)計和需求，更不用說后面的控制和感知的算法其實更加復(fù)雜。所以對大家而言，不管是我們作為上游的傳感器廠商，還是作為下游的這些機器人公司，他們都會一起來做，所以我覺得大家是共同在進步。

▎AI科技評論：未來3-5年機器人在感知方面最大的變數(shù)在哪里？

楊先聲：現(xiàn)在有兩大突破點，一是對環(huán)境的3D環(huán)境的感知，這是我們的優(yōu)勢。當我們這種新的RGBD方案成熟的話，那我覺得未來機器人在眼睛這個程度上，就會逐步收斂，就跟人一樣，有一雙眼睛就夠了。然后就是要把觸覺再逐步優(yōu)化，因為現(xiàn)在觸覺第一是貴，第二是它的可靠性、耐用性不夠，第三是成本太高。

▎AI科技評論：從技術(shù)原理的角度，觸覺會不會要比視覺更難達到新的高度？

楊先聲：對，因為視覺歸根結(jié)底還是個非接觸性傳感器，不會有太多的材料上面的問題。觸覺傳感器要實時跟環(huán)境有接觸，接觸會帶來摩擦，就會帶來可靠性的問題，甚至接觸不同的物體，對不同材質(zhì)啊、溫度都很敏感。一旦產(chǎn)生交互之后，所有的問題都會升級很多。

▎AI科技評論：對于純視覺的方案和激光雷達方案，企業(yè)在選擇上會有什么考慮？

楊先聲：我覺得機器人不存在所謂的純視覺概念，因為人類空間感知也都是立體視覺和三維感知的。因為所謂的純視覺沒辦法在這種復(fù)雜環(huán)境當中確保穩(wěn)定性，而操作一定需要很高精度的空間感知能力，所以所謂的純視覺沒辦法做到既高效又可靠的。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網(wǎng)已全面上線【ICRA 2026 深度專區(qū)】。

專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續(xù)更新前方記者的第一手會議動態(tài)。

掃描下方二維碼，或點擊「閱讀原文」關(guān)注專區(qū)。

對話速騰聚創(chuàng)楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026