智元推出ACoT-jinnianhui官网

<bdo id='JiflD'><sup id='EIMqG'><div class="osvqas2gj" id='BPWWy'><bdo id='70siF'></bdo></div></sup></bdo>

jinnianhui官網(wǎng) 動(dòng)態(tài)速遞>新聞資訊>新聞資訊

智元推出ACoT-VLA入選 CVPR 2026，并開(kāi)源作為AGIBOT WORLD CHALLENGE基線 發(fā)布時(shí)間：2026-03-09 11:26:31

具身智能領(lǐng)域迎來(lái)重要進(jìn)展！智元機(jī)器人（AGIBOT）聯(lián)合北京航空航天大學(xué)提出的 ACoT-VLA（Action Chain-of-Thought）架構(gòu)正式入選計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2026。該研究打破了傳統(tǒng)VLA模型“語(yǔ)義強(qiáng)、動(dòng)作弱”的瓶頸，首次提出在“動(dòng)作空間”進(jìn)行推理的思維鏈范式。目前，ACoT-VLA 已作為的官方基線模型正式開(kāi)源，助力全球開(kāi)發(fā)者攻克復(fù)雜機(jī)器人操控難題。

論文鏈接：
//arxiv.org/abs/2601.11404
代碼倉(cāng)庫(kù)：
//github.com/AgibotTech/ACoT-VLA

01/

挑戰(zhàn)：

語(yǔ)義信息與動(dòng)作表征之間的鴻溝

圖1: 不同空間下的思維鏈對(duì)比。

(a) 語(yǔ)言思維鏈將預(yù)測(cè)“子任務(wù)”作為中間推理步驟；

(b) 視覺(jué)思維鏈通過(guò)合成目標(biāo)圖像來(lái)引導(dǎo)動(dòng)作策略生成；

目前的視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型雖然表現(xiàn)出良好的泛化能力，但通常將多模態(tài)輸入直接映射為底層動(dòng)作，其痛點(diǎn)在于：現(xiàn)有的或顯式、或隱式的推理過(guò)程多局限于語(yǔ)言（如預(yù)測(cè)子任務(wù)）或視覺(jué)空間（如生成目標(biāo)圖像），缺乏對(duì)物理動(dòng)力學(xué)的直覺(jué)。這導(dǎo)致高級(jí)語(yǔ)義與精確的運(yùn)動(dòng)控制之間，橫亙著巨大的語(yǔ)義-運(yùn)動(dòng)鴻溝（Semantic-Kinematic Gap）。形象地說(shuō)，機(jī)器人能“理解”任務(wù)，但極易在精細(xì)操作或面臨干擾時(shí)，因缺乏直接的動(dòng)作指引而失敗。

面對(duì)物理世界的交互，推理過(guò)程應(yīng)該是怎樣的？想象一下人類(lèi)抓取桌上的蘋(píng)果，第一反應(yīng)絕不是瞬間計(jì)算出手臂每時(shí)刻的精確坐標(biāo)（細(xì)粒度控制），而是先在腦海中規(guī)劃出一個(gè)大致的運(yùn)動(dòng)趨勢(shì)——“抬手，伸向右前方，準(zhǔn)備張開(kāi)”（粗粒度意圖）。

正如大語(yǔ)言模型依賴(lài)中間文本推演的“文本思維鏈”，世界模型依賴(lài)中間圖像規(guī)劃的“視覺(jué)思維鏈”，在機(jī)器人的動(dòng)作空間里，這種“先推演出粗粒度的運(yùn)動(dòng)趨勢(shì)，再指導(dǎo)精細(xì)執(zhí)行”的過(guò)程，正是動(dòng)作思維鏈（Action Chain-of-Thought, ACoT）。

02/

創(chuàng)新：

讓機(jī)器人學(xué)會(huì)“在動(dòng)作空間思考”

具體而言，ACoT-VLA 核心架構(gòu)包含兩個(gè)互補(bǔ)的推理模塊：

顯式動(dòng)作推理 (EAR) 生成“參考草圖”
EAR 作為一個(gè)輕量化的 Transformer 模塊，根據(jù)多模態(tài)輸入，提前生成粗粒度（長(zhǎng)視距且序列稀疏）參考軌跡。它為機(jī)器人提供了一個(gè)物理上可行的“動(dòng)作意圖”，極大地減少了從觀察到執(zhí)行的映射歧義，為下游策略提供直接的參考軌跡。
隱式動(dòng)作推理 (IAR) 挖掘“潛在直覺(jué)”
IAR 通過(guò)下采樣和交叉注意力機(jī)制，從 VLM 的內(nèi)部特征（KV Cache）中提取潛藏的動(dòng)作先驗(yàn)，捕捉如指令“伸出左手”所蘊(yùn)含的潛在動(dòng)作分布等隱式語(yǔ)義信息。
動(dòng)作引導(dǎo)預(yù)測(cè) (AGP) 實(shí)現(xiàn)“精準(zhǔn)落地”
最終的動(dòng)作輸出模塊，不再孤立地從噪聲開(kāi)始預(yù)測(cè)，而是通過(guò)雙重交叉注意力機(jī)制，同時(shí)融合 EAR 的顯式軌跡和 IAR 的隱式信息，賦予了模型極強(qiáng)的動(dòng)作空間先驗(yàn)，以增強(qiáng)策略生成能力。

03/

性能：全線 SOTA，無(wú)懼?jǐn)_動(dòng)

ACoT-VLA在多個(gè)主流具身智能benchmark上取得全面SOTA，在任務(wù)成功率、環(huán)境魯棒性以及跨場(chǎng)景泛化能力上均顯著領(lǐng)先現(xiàn)有VLA方法(比如

π₀、π_0.5、GR00T)。

LIBERO Benchmark：ACoT-VLA在Spatial、Object、Goal與Long 四類(lèi)任務(wù)上均排名第一，平均成功率達(dá)到 98.5%。

LIBERO-Plus Benchmark：在包含相機(jī)、光照、背景和噪聲等多種環(huán)境擾動(dòng)的設(shè)置下，ACoT-VLA 取得 84.1% 平均成功率，顯著超過(guò)現(xiàn)有方法。特別是在 Robot 初始位姿擾動(dòng)場(chǎng)景中達(dá)到 62.5%，領(lǐng)先第二名20.8%。

VLABench Benchmark：在跨類(lèi)別與紋理泛化測(cè)試中，ACoT-VLA 平均達(dá)到 63.5 IS / 47.4 PS，特別是紋理泛化任務(wù)上取得了 74.6 IS / 54.6 PS，顯著優(yōu)于其他方法。

Genie Sim 3.0 Benchmark (Sim-to-Real)：在面向真實(shí)世界遷移的 Genie Sim 3.0 評(píng)測(cè)中，ACoT-VLA 展示了良好的零樣本跨域遷移能力，在僅使用仿真數(shù)據(jù)訓(xùn)練的前提下，在真實(shí)環(huán)境測(cè)試中取得了 82.9% 的平均成功率，顯著優(yōu)于π_0.5（77.5%）。

左右滑動(dòng)查看更多

04/

開(kāi)源：

助力AGIBOT WORLD CHALLENGE

智元機(jī)器人一直致力于建設(shè)開(kāi)放的具身智能生態(tài)。為了降低廣大開(kāi)發(fā)者進(jìn)入具身智能研究的門(mén)檻，我們宣布：ACoT-VLA已正式作為 AGIBOT WORLD CHALLENGE推理-操作賽道的官方基線模型（Baseline）開(kāi)源！

關(guān)于 AGIBOT WORLD CHALLENGE：

這是由智元機(jī)器人發(fā)起的全球性具身智能挑戰(zhàn)賽，旨在征集全球頂尖算法方案，共同攻克真實(shí)場(chǎng)景下的機(jī)器人通用操控難題，參賽者可以基于 ACoT-VLA 的開(kāi)源代碼，利用我們提供的 AgiBot World Colosseo 大規(guī)模仿真平臺(tái)Genie Sim 3.0進(jìn)行二次開(kāi)發(fā)與算法創(chuàng)新。