电影《医生》完整版在线观看,天川空番号,一场西班牙的雨完整版免费观看,盲井全集免费观看完整版,灭火宝贝电影在线,霍比特人,回到明朝当王爷之杨凌传免费观看全集资源

jinnianhui官网

智元推出ACoT-VLA入選 CVPR 2026,并開(kāi)源作為AGIBOT WORLD CHALLENGE基線 發(fā)布時(shí)間:2026-03-09 11:26:31

具身智能領(lǐng)域迎來(lái)重要進(jìn)展!智元機(jī)器人(AGIBOT)聯(lián)合北京航空航天大學(xué)提出的 ACoT-VLA(Action Chain-of-Thought)架構(gòu)正式入選計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2026該研究打破了傳統(tǒng)VLA模型“語(yǔ)義強(qiáng)、動(dòng)作弱”的瓶頸,首次提出在“動(dòng)作空間”進(jìn)行推理的思維鏈范式。目前,ACoT-VLA 已作為 的官方基線模型正式開(kāi)源,助力全球開(kāi)發(fā)者攻克復(fù)雜機(jī)器人操控難題。


1.png


  • 論文鏈接:

    //arxiv.org/abs/2601.11404

  • 代碼倉(cāng)庫(kù):

    //github.com/AgibotTech/ACoT-VLA



01/

挑戰(zhàn):

語(yǔ)義信息與動(dòng)作表征之間的鴻溝

2.png

圖1: 不同空間下的思維鏈對(duì)比。

(a) 語(yǔ)言思維鏈將預(yù)測(cè)“子任務(wù)”作為中間推理步驟 ;

(b) 視覺(jué)思維鏈通過(guò)合成目標(biāo)圖像來(lái)引導(dǎo)動(dòng)作策略生成 ;

(c) 我們提出的動(dòng)作思維鏈直接在動(dòng)作空間進(jìn)行推理,提供同質(zhì)化的動(dòng)作引導(dǎo) 。


目前的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型雖然表現(xiàn)出良好的泛化能力,但通常將多模態(tài)輸入直接映射為底層動(dòng)作,其痛點(diǎn)在于:現(xiàn)有的或顯式、或隱式的推理過(guò)程多局限于語(yǔ)言(如預(yù)測(cè)子任務(wù))或視覺(jué)空間(如生成目標(biāo)圖像),缺乏對(duì)物理動(dòng)力學(xué)的直覺(jué)。這導(dǎo)致高級(jí)語(yǔ)義與精確的運(yùn)動(dòng)控制之間,橫亙著巨大的語(yǔ)義-運(yùn)動(dòng)鴻溝(Semantic-Kinematic Gap)。形象地說(shuō),機(jī)器人能“理解”任務(wù),但極易在精細(xì)操作或面臨干擾時(shí),因缺乏直接的動(dòng)作指引而失敗。


面對(duì)物理世界的交互,推理過(guò)程應(yīng)該是怎樣的?想象一下人類(lèi)抓取桌上的蘋(píng)果,第一反應(yīng)絕不是瞬間計(jì)算出手臂每時(shí)刻的精確坐標(biāo)(細(xì)粒度控制),而是先在腦海中規(guī)劃出一個(gè)大致的運(yùn)動(dòng)趨勢(shì)——“抬手,伸向右前方,準(zhǔn)備張開(kāi)”(粗粒度意圖)。


正如大語(yǔ)言模型依賴(lài)中間文本推演的“文本思維鏈”,世界模型依賴(lài)中間圖像規(guī)劃的“視覺(jué)思維鏈”,在機(jī)器人的動(dòng)作空間里,這種“先推演出粗粒度的運(yùn)動(dòng)趨勢(shì),再指導(dǎo)精細(xì)執(zhí)行”的過(guò)程,正是動(dòng)作思維鏈(Action Chain-of-Thought, ACoT)。



02/

創(chuàng)新:

讓機(jī)器人學(xué)會(huì)“在動(dòng)作空間思考”


3.png


具體而言,ACoT-VLA 核心架構(gòu)包含兩個(gè)互補(bǔ)的推理模塊:


  1. 顯式動(dòng)作推理 (EAR) 生成“參考草圖”

    EAR 作為一個(gè)輕量化的 Transformer 模塊,根據(jù)多模態(tài)輸入,提前生成粗粒度(長(zhǎng)視距且序列稀疏)參考軌跡。它為機(jī)器人提供了一個(gè)物理上可行的“動(dòng)作意圖”,極大地減少了從觀察到執(zhí)行的映射歧義,為下游策略提供直接的參考軌跡 。


  2. 隱式動(dòng)作推理 (IAR) 挖掘“潛在直覺(jué)”

    IAR 通過(guò)下采樣和交叉注意力機(jī)制,從 VLM 的內(nèi)部特征(KV Cache)中提取潛藏的動(dòng)作先驗(yàn),捕捉如指令“伸出左手”所蘊(yùn)含的潛在動(dòng)作分布等隱式語(yǔ)義信息。


  3. 動(dòng)作引導(dǎo)預(yù)測(cè) (AGP) 實(shí)現(xiàn)“精準(zhǔn)落地”

    最終的動(dòng)作輸出模塊,不再孤立地從噪聲開(kāi)始預(yù)測(cè),而是通過(guò)雙重交叉注意力機(jī)制,同時(shí)融合 EAR 的顯式軌跡和 IAR 的隱式信息,賦予了模型極強(qiáng)的動(dòng)作空間先驗(yàn),以增強(qiáng)策略生成能力。



03/

性能:全線 SOTA,無(wú)懼?jǐn)_動(dòng)


ACoT-VLA在多個(gè)主流具身智能benchmark上取得全面SOTA,在任務(wù)成功率、環(huán)境魯棒性以及跨場(chǎng)景泛化能力上均顯著領(lǐng)先現(xiàn)有VLA方法(比如

π0、π0.5、GR00T)。


LIBERO BenchmarkACoT-VLA在Spatial、Object、Goal與Long 四類(lèi)任務(wù)上均排名第一,平均成功率達(dá)到 98.5%。


LIBERO-Plus Benchmark:在包含相機(jī)、光照、背景和噪聲等多種環(huán)境擾動(dòng)的設(shè)置下,ACoT-VLA 取得 84.1% 平均成功率,顯著超過(guò)現(xiàn)有方法。特別是在 Robot 初始位姿擾動(dòng)場(chǎng)景中達(dá)到 62.5%,領(lǐng)先第二名20.8%。


VLABench Benchmark:在跨類(lèi)別與紋理泛化測(cè)試中,ACoT-VLA 平均達(dá)到 63.5 IS / 47.4 PS,特別是紋理泛化任務(wù)上取得了 74.6 IS / 54.6 PS,顯著優(yōu)于其他方法。


Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真實(shí)世界遷移的  Genie Sim 3.0 評(píng)測(cè)中,ACoT-VLA 展示了良好的零樣本跨域遷移能力,在僅使用仿真數(shù)據(jù)訓(xùn)練的前提下,在真實(shí)環(huán)境測(cè)試中取得了 82.9% 的平均成功率,顯著優(yōu)于π0.577.5%)。


acot_05.png
acot_06.png
acot_07.png
截屏2026-03-05 19.29.49.png

左右滑動(dòng)查看更多



04/

開(kāi)源:

助力AGIBOT WORLD CHALLENGE


智元機(jī)器人一直致力于建設(shè)開(kāi)放的具身智能生態(tài)。為了降低廣大開(kāi)發(fā)者進(jìn)入具身智能研究的門(mén)檻,我們宣布:ACoT-VLA已正式作為 AGIBOT WORLD CHALLENGE推理-操作賽道的官方基線模型(Baseline)開(kāi)源!


關(guān)于 AGIBOT WORLD CHALLENGE:

這是由智元機(jī)器人發(fā)起的全球性具身智能挑戰(zhàn)賽,旨在征集全球頂尖算法方案,共同攻克真實(shí)場(chǎng)景下的機(jī)器人通用操控難題,參賽者可以基于 ACoT-VLA 的開(kāi)源代碼,利用我們提供的 AgiBot World Colosseo 大規(guī)模仿真平臺(tái)Genie Sim 3.0進(jìn)行二次開(kāi)發(fā)與算法創(chuàng)新。


image (3).png


我們歡迎全球開(kāi)發(fā)者:

  • 積極改進(jìn):基于 ACoT-VLA 這一更具物理直覺(jué)的架構(gòu)進(jìn)行創(chuàng)新。

  • 突破極限:在復(fù)雜的現(xiàn)實(shí)擾動(dòng)環(huán)境下,挑戰(zhàn)更高難度的通用操控。

  • 共同定義未來(lái):我們期待看到更多開(kāi)發(fā)者利用靈感,突破具身智能的邊界。


>>>  END  <<<